2026年春节未至,国内AI大厂的用户争夺战已率先打响,腾讯元宝大手笔发红包,阿里千问推出30亿免单活动,字节豆包依托春晚流量做内容生成,各大厂商纷纷烧钱抢占市场。
但相较于短期的营销动作,腾讯此前挖来前OpenAI研究员、清华姚班的姚顺雨,或许才是其布局AI赛道的长远之计。
近日,姚顺雨执掌腾讯AI后交出首个署名研究成果,由腾讯混元团队联合复旦大学完成,这份聚焦大模型上下文学习能力的研究,直指AI“听不懂人话”的核心痛点,也让腾讯在与国内外厂商的AI竞争中,走出了一条差异化的技术攻坚路线。
这份研究将目光对准了大模型上下文处理技术,得出的结论令人意外:当把大模型从记背知识的“背书模式”,切换到根据新信息实时推理的“现学现卖模式”时,即便是目前全球最先进的AI模型,正确率也仅有23.7%。
这一发现直接解释了普通用户使用AI时遇到的“死脑筋”“胡说八道”等问题,而上下文处理能力,也成为当下全球大模型的共同难题。
要理解这一研究的价值,需先看清大模型的两大运作阶段。
第一阶段是预训练,模型通过学习互联网海量静态数据积累通用知识,这是其回答常规问题的基础,但这些知识仅截止到训练完成前,无法适配动态的真实世界。
第二阶段是情境学习,也就是上下文处理,要求AI跳出预训练的知识储备,根据用户给出的全新、专属信息实时推理判断,比如依据公司内部会议纪要、游戏新活动规则作答。
可以说,上下文处理能力是AI的灵魂,一旦处理不好,AI就会脱离具体规则编造答案,出现常见的“幻觉”问题。
为测试大模型的上下文学习能力,混元团队打造了CL-bench评测体系,构建了近2000个从未在互联网公开的全新情境,让模型在无通用知识可参考的情况下作答。测试结果显示,表现最好的GPT-5.1(High)正确率仅23.7%,Claude Opus 4.5约21.1%,国内的千问、豆包等模型正确率也在10%-14%之间,所有测试模型的平均正确率仅17.2%。
这意味着,当要求AI只根据给出的新信息作答时,绝大多数情况下都会出错,如同固执的学生无视黑板上的新规则,仍按旧知识答题。
研究还揭示了大模型上下文学习能力薄弱的两大原因:一是预训练知识过于根深蒂固,面对新信息时无法有效抑制旧认知;二是复杂逻辑推演能力不足,即便能处理超长文本,也难以从海量信息中精准提取关键,简单的知识检索尚能应对,一旦涉及复杂推理,正确率便会暴跌。
而这一痛点,也成为国内外AI厂商的竞争分水岭,各家的攻坚方向因自身生态截然不同。
国内来看,阿里千问依托电商、本地生活的完整履约体系,核心攻坚大模型与B端商业体系的整合能力,其30亿免单活动就是考验模型在实体消费场景的落地执行,而非底层的上下文处理;
字节豆包背靠短视频生态,侧重AI生成内容的能力,争夺用户注意力时长,技术发力点更多在多模态内容创作、实时交互体验上;
百度文心一言则坚守搜索核心,重点提升大模型的知识检索和通用问答效率,围绕搜索场景做技术优化。
这几家大厂的技术布局均围绕自身核心生态,在大模型上下文处理这一底层痛点上,尚未有深度的专项研究和攻坚。
海外厂商则走上了另一条路,OpenAI、Google虽在模型参数、长上下文窗口上持续发力,比如Google Gemini支持200万tokens的超长文本、GPT-4-turbo有128k tokens处理能力,但此次测试显示,Gemini 3 Pro正确率仅15.8%。
可见其虽提升了上下文窗口的长度,却忽视了模型对新信息的实时推理能力,陷入“能装下更多信息,却读不懂信息”的困境。
而腾讯之所以聚焦这一技术痛点,与其自身的业务布局密不可分。和其他厂商不同,腾讯的核心业务扎根于社交、内容领域,同时布局游戏与企业服务,这些场景对AI的上下文处理能力要求极为苛刻。
微信、QQ的碎片化对话流,需要AI精准理解封闭语境中的人际关系和隐含逻辑;游戏场景要求AI根据实时局势做出反应,而非机械背诵预训练内容;企业微信、腾讯会议则需要AI基于私有文档做精准分析,通用知识在此不仅无用,还可能因“幻觉”造成误导。
各大厂的AI营销战只是短期的用户争夺,而姚顺雨的这份研究,让腾讯跳出了“生态适配”的固有竞争思路,直击全球大模型的核心技术痛点。
对坐拥海量应用场景的腾讯而言,一个能在复杂上下文中保持逻辑严密的AI模型,远比只会死记硬背知识的模型更具商业价值,而这一差异化的技术布局,也成为腾讯决战AI赛道的关键一步。



