摩尔线程开源GPU算子代码大模型_科技

摩尔线程开源GPU算子代码大模型

2026-06-11 09:58 摩尔线程

摩尔线程开源GPU算子代码大模型23

6月10日，国内GPU厂商摩尔线程发布了面向GPU底层算子生成的专用代码大模型MusaCoder，并将模型权重在Hugging Face上开源。

该模型包含9B和27B两个参数版本，重点支持从PyTorch标准算子自动生成高性能CUDA或MUSA原生Kernel代码。

MUSA是摩尔线程自研的GPU软件栈，对CUDA生态做了较全面的兼容适配。根据官方信息，MUSA SDK 5.1.0已兼容英伟达CUDA 12.8，累计兼容761个核心API接口。

不过需要说明的是，这种兼容性更多在API层面，解决了代码能不能跑的问题，但实际性能调优和算子库成熟度才是决定跑得快不快的关键，这也是目前国产GPU软件栈普遍面临的短板。

MusaCoder的技术路线有一定差异性。通用代码大模型（如Claude、GPT系列）在GPU Kernel生成任务上表现并不理想，因为GPU Kernel对线程组织、内存访问模式、索引映射等硬件特性要求极高，生成代码不光要语法正确，还得能通过编译、数值验证和性能测试。

MusaCoder的解决思路是在后训练阶段引入执行验证闭环，构建了MooreEval分布式执行验证系统，让模型生成代码后自动编译、运行、验证正确性，再把结果反馈给模型进行强化学习优化。

这种训练方式依赖大量真实执行反馈，对算力的要求比纯文本微调高得多。

值得关注的是，MusaCoder的全链路后训练流程，包括监督微调、拒绝采样微调和强化学习，全部在摩尔线程基于MTT S5000 GPU构建的夸娥智算集群上完成。

这意味着国产GPU已经能够稳定承载代码大模型从训练到验证的复杂算力需求，尤其在GPU Kernel生成这类需要频繁编译、执行、验证反馈的场景中，硬件、编译栈、运行时和评测基础设施都必须具备足够的稳定性和性能。

评测方面，摩尔线程引用了KernelBench基准测试数据，MusaCoder-27B-RL的整体Pass@8达到93.2%，超越Claude Opus 4.7、DeepSeek-V4 Pro等主流模型。不过这些数据由厂商自行发布，外部独立复现验证是下一步需要关注的事情。

将MusaCoder放在行业格局中看，类似方向并非摩尔线程独创。

2026年1月，众智FlagOS社区就推出了升级版KernelGen，一个支持多种AI芯片的高性能Triton算子自动生成工具，其思路是通过大模型加统一编译器实现跨硬件算子生成，目标同样是降低算子开发门槛。

英伟达方面则更倾向于建立评测标准而非直接开源代码生成模型，2025年底推出的ComputeEval就是用于评估AI模型在CUDA编程任务中的表现，反映出英伟达对“用大模型降低CUDA编程门槛”这一趋势的重视，但并未发布类似MusaCoder的专用模型。

AMD和Intel也各有ROCm和oneAPI等开源软件栈布局，但在算子代码生成模型上尚无明确对标产品。

MusaCoder的主要局限可能在于两点。其一，模型的训练数据、微调方法和具体评测细则尚需更多外部验证，目前的信息主要来自官方发布。

其二，MusaCoder最终服务于MUSA生态，而后者本身仍在建设期。有开发者指出，MUSA对CUDA的兼容在API层面成效不错，但迁移后仍存在接口适配和性能调优问题，生态还处于爬坡阶段。

MusaCoder能帮助开发者跨越从PyTorch到MUSA Kernel的代码生成门槛，但要真正发挥硬件性能，还需要硬件、驱动、算子库和工具链的持续打磨。

从行业趋势看，用大模型降低底层算子开发门槛正逐渐成为共识。算子开发周期长、人力成本高，而GPU硬件迭代速度远超软件适配速度，AI自动生成代码并完成验证被认为是应对这一矛盾的核心手段。

摩尔线程这次的开源动作，一方面展示了MUSA生态在AI工具链上的积累，另一方面也给开发者提供了一个观察国产GPU软件栈真实能力的窗口。

开源容易，但让开发者真正用起来、用得好，才是更大的考验。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］