4月3日,上海人工智能实验室和沐曦股份联合发布了高性能GPU算子生成系统Kernel-Smith。
该系统将“稳定评估驱动的进化智能体”与“面向进化的后训练范式”融合,依托书生大模型Intern-S1-Pro进行定制化训练,试图解决大模型在算子生成中长期面临的可靠性问题。
算子开发是释放GPU算力的关键环节,但长期以来高度依赖经验丰富的工程师。一个高效的算子需要在多种融合模式、分块策略中反复搜索和调试。
现有基于大模型的算子生成系统多依赖多轮对话或基于历史信息的循环,往往陷入早期错误决策的路径依赖,且“写对”和“跑得快”是两种截然不同的能力。
Kernel-Smith的核心设计在于把算子优化视为一个进化搜索过程。智能体维护一个候选程序池,通过维护高性能且多样化的程序存档,并结合编译、正确性和加速比的结构化执行反馈进行迭代优化。
为了抑制GPU运行时间测量的噪声,系统通过固定计算图、重复测量和异常值剔除等机制确保搜索的可靠性。研究团队还为NVIDIA Triton和沐曦Maca GPU分别构建了专属的后端评估服务。
在训练阶段,研究团队将长时进化轨迹转化为基于步骤的监督和强化学习信号,使模型成为进化循环中的局部优化器,而非一次性生成器。
在NVIDIA Triton后端的KernelBench评测中,Kernel-Smith-235B-RL取得了最佳平均加速比,性能超过了Gemini-3.0-pro和Claude-4.6-opus等闭源模型。
这套系统已经走出实验室。Kernel-Smith自动生成的算子已加速了DeepSeek新架构Engram,并合入DLBlas,还落地到了主流推理引擎SGLang和LMDeploy中。
在沐曦自研的MXMACA软件栈后端测试中,Kernel-Smith-MACA-30B在四类常用算子上的平均加速比超过了DeepSeek-v3.2和Qwen3-235B-2507等参数规模更大的开源模型。
算子开发工具链正在变得多样化。摩尔线程于今年1月开源了TileLang-MUSA项目,采用声明式语法和编译器自动优化,相较手写MUSA C++代码可减少约90%的代码量,性能可达手写优化版本的85%至95%。
华为昇腾的CANN计算架构则更侧重于离线编译优化,通过算子融合和指令调度来提升NPU计算密度。
AI大模型究竟能在多大程度上替代经验丰富的算子开发工程师,或许仍是一个需要持续观察的问题。但一个明确的趋势是,算子生成的效率门槛正在被逐步降低。



