林俊旸离职后首发长文,判断大模型演进主线从推理转向智能体
2026-03-27 11:40 林俊旸

林俊旸离职后首发长文,判断大模型演进主线从推理转向智能体23

3月26日,本月初从阿里巴巴离职的原千问大模型技术负责人林俊旸在社交平台发布离职后首篇长文。

文章未涉及个人职业动向,而是系统阐述了对大模型技术路线下一阶段走向的判断,并复盘了千问团队在模型融合方向上的探索经验。

林俊旸在文中回顾,以OpenAI o1和DeepSeek-R1为代表的第一波推理模型,标志着行业从扩大预训练规模转向扩大强化学习后训练规模。

数学、代码等可验证领域成为优化模型正确性的核心场景。

但经过2025年上半年的集中投入后,他认为行业需要回答“下一步是什么”的问题,答案指向智能体思考,即模型不再仅依靠内部推理链推演,而是在与环境交互中持续迭代计划、调用工具并修正行为。

文章详细披露了千问团队在技术路线选择上的实际经验。

林俊旸坦言“我们没有全做对”,2025年初团队曾试图通过Qwen3打造一个统一支持思考模式和指令模式的混合系统,但在实践中发现两种模式的数据分布和行为目标存在根本冲突。

指令模型追求极简、低延迟和高吞吐,思考模型则需要消耗大量token进行复杂推演。数据筛选不当的情况下,强行融合往往导致模型在两端表现平庸。

基于商业客户的实际需求,Qwen在后续2507版本中推出了分离的30B和235B指令与思考变体。

林俊旸认为,真正成功的合并需要实现平滑的推理力度光谱,而非将两种人格硬塞进同一个模型。

针对下一阶段技术演进,林俊旸判断单纯延长模型内部推理轨迹的时代即将过去,核心问题正从“模型能不能想得够久”转变为“模型能不能用支撑有效行动的方式来思考”。

智能体思考必须处理几项推理模型此前可以回避的问题,包括判断何时停止思考并开始行动、选择调用工具的顺序、消化环境中的噪声与部分观测、失败后修正计划以及保持多轮交互的连贯性。

他指出,智能体强化学习将彻底改变技术栈要求,训练与推理需要实现更彻底的解耦。随着模型获得搜索、代码执行等工具权限,防范奖励作弊将成为关键挑战。

未来的行业护城河将更多集中在高质量环境设计、防作弊协议以及多智能体协同编排等系统工程能力上。

此次长文发布距林俊旸公开宣布卸任约三周。

3月4日凌晨,林俊旸在社交媒体发文确认离开千问,同日千问后训练负责人郁博文等核心成员也透露离职。据公开报道,此次离职与千问团队的组织架构调整直接相关。

3月5日,阿里巴巴CEO吴泳铭在内部邮件中确认批准林俊旸的离职申请,同时表示公司将继续坚持开源模型策略,并成立基础模型支持小组协调集团资源。

88.jpg