摩尔线程开源GPU算子代码大模型
2026-06-11 09:58 摩尔线程

摩尔线程开源GPU算子代码大模型23

6月10日,国内GPU厂商摩尔线程发布了面向GPU底层算子生成的专用代码大模型MusaCoder,并将模型权重在Hugging Face上开源。

该模型包含9B和27B两个参数版本,重点支持从PyTorch标准算子自动生成高性能CUDA或MUSA原生Kernel代码。

MUSA是摩尔线程自研的GPU软件栈,对CUDA生态做了较全面的兼容适配。根据官方信息,MUSA SDK 5.1.0已兼容英伟达CUDA 12.8,累计兼容761个核心API接口。

不过需要说明的是,这种兼容性更多在API层面,解决了代码能不能跑的问题,但实际性能调优和算子库成熟度才是决定跑得快不快的关键,这也是目前国产GPU软件栈普遍面临的短板。

MusaCoder的技术路线有一定差异性。通用代码大模型(如Claude、GPT系列)在GPU Kernel生成任务上表现并不理想,因为GPU Kernel对线程组织、内存访问模式、索引映射等硬件特性要求极高,生成代码不光要语法正确,还得能通过编译、数值验证和性能测试。

MusaCoder的解决思路是在后训练阶段引入执行验证闭环,构建了MooreEval分布式执行验证系统,让模型生成代码后自动编译、运行、验证正确性,再把结果反馈给模型进行强化学习优化。

这种训练方式依赖大量真实执行反馈,对算力的要求比纯文本微调高得多。

值得关注的是,MusaCoder的全链路后训练流程,包括监督微调、拒绝采样微调和强化学习,全部在摩尔线程基于MTT S5000 GPU构建的夸娥智算集群上完成。

这意味着国产GPU已经能够稳定承载代码大模型从训练到验证的复杂算力需求,尤其在GPU Kernel生成这类需要频繁编译、执行、验证反馈的场景中,硬件、编译栈、运行时和评测基础设施都必须具备足够的稳定性和性能。

评测方面,摩尔线程引用了KernelBench基准测试数据,MusaCoder-27B-RL的整体Pass@8达到93.2%,超越Claude Opus 4.7、DeepSeek-V4 Pro等主流模型。不过这些数据由厂商自行发布,外部独立复现验证是下一步需要关注的事情。

将MusaCoder放在行业格局中看,类似方向并非摩尔线程独创。

2026年1月,众智FlagOS社区就推出了升级版KernelGen,一个支持多种AI芯片的高性能Triton算子自动生成工具,其思路是通过大模型加统一编译器实现跨硬件算子生成,目标同样是降低算子开发门槛。

英伟达方面则更倾向于建立评测标准而非直接开源代码生成模型,2025年底推出的ComputeEval就是用于评估AI模型在CUDA编程任务中的表现,反映出英伟达对“用大模型降低CUDA编程门槛”这一趋势的重视,但并未发布类似MusaCoder的专用模型。

AMD和Intel也各有ROCm和oneAPI等开源软件栈布局,但在算子代码生成模型上尚无明确对标产品。

MusaCoder的主要局限可能在于两点。其一,模型的训练数据、微调方法和具体评测细则尚需更多外部验证,目前的信息主要来自官方发布。

其二,MusaCoder最终服务于MUSA生态,而后者本身仍在建设期。有开发者指出,MUSA对CUDA的兼容在API层面成效不错,但迁移后仍存在接口适配和性能调优问题,生态还处于爬坡阶段。

MusaCoder能帮助开发者跨越从PyTorch到MUSA Kernel的代码生成门槛,但要真正发挥硬件性能,还需要硬件、驱动、算子库和工具链的持续打磨。

从行业趋势看,用大模型降低底层算子开发门槛正逐渐成为共识。算子开发周期长、人力成本高,而GPU硬件迭代速度远超软件适配速度,AI自动生成代码并完成验证被认为是应对这一矛盾的核心手段。

摩尔线程这次的开源动作,一方面展示了MUSA生态在AI工具链上的积累,另一方面也给开发者提供了一个观察国产GPU软件栈真实能力的窗口。

开源容易,但让开发者真正用起来、用得好,才是更大的考验。

88.jpg