腾讯混元升级HPC-Ops推理算子库，多项性能高于开源基线_科技

腾讯混元升级HPC-Ops推理算子库，多项性能高于开源基线

2026-06-12 11:30 腾讯混元

腾讯混元升级HPC-Ops推理算子库，多项性能高于开源基线23

6月11日，腾讯混元AI Infra团队宣布HPC-Ops推理核心算子库完成全面升级，新增五个关键算子，从单点高性能算子扩展为覆盖推理全链路的优化能力集合。

HPC-Ops是腾讯混元团队开源并长期维护的大模型推理底层算子库。首轮开源的算子包括Attention和GroupGEMM，原生支持BF16及多种FP8量化方案。

此次升级主要解决了推理场景中Attention计算不均衡、显存频繁搬运、跨卡通信冗余等工程瓶颈。

本次升级包含五个核心模块，Attention模块针对真实负载下长短请求混排导致的推理长尾问题，采用运行时动态负载调度策略，实测长文本场景最高加速2.95倍，端到端QPM提升17%。

Router GEMM模块将两个BF16 GEMM组合实现FP32级精度的矩阵运算，相比CuBLAS FP32方案最高提速3.22倍，同时保持了BF16的GPU算力效率。

FusedMoE将Mixture of Experts模块的多阶段流程整合为统一流水线，消除了中间的显存搬运和kernel启动开销，相比vLLM和SGLang等主流框架性能提升1.2到1.6倍。

Fused AllReduce+Norm将跨GPU通信、残差叠加与归一化三层计算深度融合，对比NCCL和FlashInfer主流方案提速1.04至1.68倍。

Sampler模块将原本需要十多个CUDA kernel的解码采样计算压缩为两个kernel，补齐了推理链路末端的性能短板，相比vLLM提速4到7.5倍，较FlashInfer提速1.9至4.7倍。

这些性能数据均是团队自行公布的，实际效果需在社区场景下进一步验证。需说明的是，此前HPC-Ops的社区影响力有限，GitHub星标数和Fork数相对VLLM和TensorRT-LLM等成熟项目仍有较大差距。

算子库开源后能否获得活跃的外部贡献者，也是衡量其长期价值的关键指标。

在AI基础设施领域，推理已成为核心计算场景。IDC与腾讯云联合发布的报告指出，AI Infra正向架构重构、行业垂直化、算力智能化等方向演进，AI Agent的崛起是主要驱动力。

同时，推理计算占比持续上升，SiliconFlow联合创始人提出推理计算需求已超越模型训练，成为基础设施的主要压力来源。

这意味着推理效率的每一点优化，都会直接影响大模型服务的成本结构和用户体验。

算子级别的性能竞争已在行业中全面展开，DeepSeek、阿里通义等团队都在推进算子融合和量化压缩技术，字节跳动豆包也宣布其推理效率提升了43%。

各家技术路线虽有差异，但核心目标一致，即在算力成本压缩和延迟控制之间寻找更好的平衡点。

腾讯此次升级覆盖了从注意力计算到采样端的全链路，但升级范围仍主要集中在通用GPU架构上，在国产芯片的适配深度方面公开信息不多。

HPC-Ops团队表示将持续开放来自真实业务场景验证的高性能算子能力，项目代码已在GitHub公开（github.com/Tencent/hpc-ops）。

对于大模型推理社区而言，新增一套覆盖全链路的开源算子方案，为开发者提供了除vLLM、FlashInfer之外的又一个选择，但开源生态的繁荣高度依赖共建，单靠一家公司的维护很难走远。

此次升级能为社区贡献多少实际价值，最终取决于外部开发者能否真正用起来，并参与进来。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］