美团发布原生多模态模型LongCat-Next并全面开源
2026-03-30 17:42 美团

美团发布原生多模态模型LongCat-Next并全面开源23

3月26日,美团发布并全面开源了原生多模态大模型LongCat-Next及其核心组件离散原生分辨率视觉分词器dNaViT。

该模型采用名为DiNA的离散原生自回归架构,将图像、语音与文本统一映射为同源的离散Token,全程使用“下一个Token预测”范式进行建模。

这意味着无论是处理文字、识别图片还是生成音频,模型都使用同一套参数、同一个注意力机制和同一个损失函数,不再依赖传统“语言基座加外挂视觉模块”的拼凑式架构。

在技术指标上,LongCat-Next在OmniDocBench上的表现超越了Qwen3-Omni和专用视觉模型Qwen3-VL。

消融实验显示,其统一模型的理解损失仅比纯理解模型高0.006,生成损失反而比纯生成模型低0.02。

在纯文本任务上,MMLU-Pro得分为77.02,C-Eval得分为86.80;在工具调用方面,τ²-Bench零售场景得分73.68,大幅领先Qwen3-Next-80B-A3B-Instruct的57.3分。音频领域,TTS任务的中文WER低至1.90,英文WER为1.89。

同一天,美团CEO王兴在财报电话会上表示,在AI革命中“唯一合理的策略是进攻,而不是防守”,但美团不会盲目追求成为“词元工厂”,而是将AI用于改进和变革本地服务这一核心业务。

他透露,自2023年初以来,美团在资本支出和AI人才上进行了大规模投入,继续投入自研基座大模型LongCat,同时也在与行业顶尖的第三方大模型合作。

王兴认为,AI“超级入口”的关键在于精准理解用户需求和高效执行任务,其复杂程度远超聊天机器人。

目前,美团已面向所有用户开放了嵌入美团APP的AI助手“小团”,覆盖本地生活全品类。用户输入服务需求后,系统可快速匹配优质商家和商品。

王兴以找一家位于望京和中关村中间地段、味道不错且方便停车的川菜馆为例,说明这类常见需求需要AI掌握地图信息、POI信息以及餐厅实时供给信息,而基于物理世界的海量信息,“小团”能够从全网评价中提炼有价值的信息并推理出个性化答案。

在商家端,美团于3月26日面向连锁餐饮品牌发布了堂食AI经营工具智能掌柜·品牌顾问,主要功能包括评价监控、经营报表生成、选址辅助和顾客偏好分析。

自单店版去年10月上线以来,已有约70.8万商家使用,累计解决660万个经营困惑。品牌版推出后,全国已有超过50家连锁品牌试用,其中“口碑管家”功能已帮助40多个餐饮连锁品牌精准定位上万个具体经营问题。

88.jpg