国内AI独角兽MiniMax近日确认,新一代大模型M3已进入发布准备阶段。MiniMax AI工程负责人Skyler Miao在社交平台释放预告,引发行业关注。
M3最核心的变化是架构层级的重构。它采用自研的稀疏注意力机制,通过索引分支(Index Branch)快速扫描上下文并筛选关键Token,再交由稀疏计算分支(Sparse Branch)进行精准注意力计算。
传统Transformer处理序列时的计算复杂度是O(n²),意味着上下文每增长10倍,计算量膨胀100倍。M3的稀疏设计将计算量压缩至原来的十分之一甚至更低,从底层解决了长文本场景下计算效率低、推理成本高、序列越长性能衰减越严重这三大痛点。
在实测数据上,M3对比前代M2(已支持100万Token上下文)取得了9.7倍的预填充速度提升和15.6倍的解码生成速度提升。这意味着,企业处理百万Token级别的长文档时算力成本可降低80%以上,个人用户进行超长对话时响应几乎无延迟。
稀疏注意力并非MiniMax独有的技术路线。2026年2月,小米MoMo大模型团队发布了HySparse混合稀疏注意力架构,同样致力于提升长文本处理效率。
百度开发者平台的技术文章也指出,深度稀疏注意力通过动态路由策略将计算复杂度降低至O(n log n),处理100万Token时显存占用可从传统方案的1.2TB降至150GB。可以说,整个行业正在从纯粹的参数规模比拼,转向效率与实用性的竞赛。
稀疏注意力也并非没有代价和争议。有学术研究指出,现有稀疏注意力方法在“序列维度”压缩时容易丢失关键信息。开源社区也有开发者表示,目前缺乏对稀疏注意力方法效率与精度之间权衡的全面系统评估。
此外,现有稀疏注意力方案大多为免训练设计,在不同模型架构上的泛化能力仍是待验证的问题。
就MiniMax而言,M3能否解决前代模型在用户实际体验中暴露的短板也值得观察。不少用户反映,M2系列模型存在指令遵循能力不够稳定、幻觉问题较明显、多步骤推理过程中易出错等问题。其视频生成产品也存在人物一致性较差、物理规律不合理等不足。这些问题是否在M3中得到系统性改善,将决定这款模型的实际竞争力。
M3的具体技术参数、发布时间以及完整的参数规模,目前仍未对外公布。但从工程负责人的预告节奏和实测数据来看,这款模型有望在长上下文处理领域带来实质性突破。



