腾讯混元升级HPC-Ops推理算子库 ,多项性能高于开源基线
2026-06-12 11:30 腾讯混元

腾讯混元升级HPC-Ops推理算子库 ,多项性能高于开源基线23

6月11日,腾讯混元AI Infra团队宣布HPC-Ops推理核心算子库完成全面升级,新增五个关键算子,从单点高性能算子扩展为覆盖推理全链路的优化能力集合。

HPC-Ops是腾讯混元团队开源并长期维护的大模型推理底层算子库。首轮开源的算子包括Attention和GroupGEMM,原生支持BF16及多种FP8量化方案。

此次升级主要解决了推理场景中Attention计算不均衡、显存频繁搬运、跨卡通信冗余等工程瓶颈。

本次升级包含五个核心模块,Attention模块针对真实负载下长短请求混排导致的推理长尾问题,采用运行时动态负载调度策略,实测长文本场景最高加速2.95倍,端到端QPM提升17%。

Router GEMM模块将两个BF16 GEMM组合实现FP32级精度的矩阵运算,相比CuBLAS FP32方案最高提速3.22倍,同时保持了BF16的GPU算力效率。

FusedMoE将Mixture of Experts模块的多阶段流程整合为统一流水线,消除了中间的显存搬运和kernel启动开销,相比vLLM和SGLang等主流框架性能提升1.2到1.6倍。

Fused AllReduce+Norm将跨GPU通信、残差叠加与归一化三层计算深度融合,对比NCCL和FlashInfer主流方案提速1.04至1.68倍。

Sampler模块将原本需要十多个CUDA kernel的解码采样计算压缩为两个kernel,补齐了推理链路末端的性能短板,相比vLLM提速4到7.5倍,较FlashInfer提速1.9至4.7倍。

这些性能数据均是团队自行公布的,实际效果需在社区场景下进一步验证。需说明的是,此前HPC-Ops的社区影响力有限,GitHub星标数和Fork数相对VLLM和TensorRT-LLM等成熟项目仍有较大差距。

算子库开源后能否获得活跃的外部贡献者,也是衡量其长期价值的关键指标。

在AI基础设施领域,推理已成为核心计算场景。IDC与腾讯云联合发布的报告指出,AI Infra正向架构重构、行业垂直化、算力智能化等方向演进,AI Agent的崛起是主要驱动力。

同时,推理计算占比持续上升,SiliconFlow联合创始人提出推理计算需求已超越模型训练,成为基础设施的主要压力来源。

这意味着推理效率的每一点优化,都会直接影响大模型服务的成本结构和用户体验。

算子级别的性能竞争已在行业中全面展开,DeepSeek、阿里通义等团队都在推进算子融合和量化压缩技术,字节跳动豆包也宣布其推理效率提升了43%。

各家技术路线虽有差异,但核心目标一致,即在算力成本压缩和延迟控制之间寻找更好的平衡点。

腾讯此次升级覆盖了从注意力计算到采样端的全链路,但升级范围仍主要集中在通用GPU架构上,在国产芯片的适配深度方面公开信息不多。

HPC-Ops团队表示将持续开放来自真实业务场景验证的高性能算子能力,项目代码已在GitHub公开(github.com/Tencent/hpc-ops)。

对于大模型推理社区而言,新增一套覆盖全链路的开源算子方案,为开发者提供了除vLLM、FlashInfer之外的又一个选择,但开源生态的繁荣高度依赖共建,单靠一家公司的维护很难走远。

此次升级能为社区贡献多少实际价值,最终取决于外部开发者能否真正用起来,并参与进来。

88.jpg