小红书开源训练引擎Relax，全模态强化学习训练较veRL提速20%_科技

小红书开源训练引擎Relax，全模态强化学习训练较veRL提速20%

2026-04-16 17:30 小红书

小红书开源训练引擎Relax，全模态强化学习训练较veRL提速20%23

2026年4月15日，小红书AI平台团队开源了Relax，一款面向全模态与Agentic场景的大模型强化学习训练引擎。Relax不提供预训练模型，而是用于训练和微调模型的底层框架。

此前小红书hi lab团队已开源过文本模型dots.llm1和多模态模型dots.vlm1，Relax则进一步补全了训练工具链。

Relax基于Megatron-LM和SGLang两个高性能后端构建，核心设计是将Rollout推理生成与Train梯度更新解耦为两个独立服务，通过TransferQueue数据总线连接，实现micro batch级别的异步流水线。

传统方案中，即使是全异步框架也常常存在全局batch同步，长尾样本会拖慢整个训练步。Relax将同步粒度压到微批次，理论上可以消除这种拖累。

技术报告给出的数据较为具体。在16xH800多机配置下训练Qwen3-Omni-30B模型，Relax的全异步模式相比传统Colocate基线端到端提速76%，相比字节跳动开源的veRL框架的全异步模式端到端提速20%。

在Qwen3-4B的on-policy训练中，Relax比veRL获得了1.20倍的加速。在混合专家模型场景下，veRL在特定配置中性能下降了32%，而Relax的开销仅增加1.9%。此外，Relax验证了图像、文本、音频和视频四种模态的强化学习训练稳定收敛。

veRL是目前大模型强化学习训练领域的主流开源框架之一，由字节跳动火山引擎团队开发，其HybridFlow论文已被学术会议接收。

Relax与veRL选择了相似的技术路线，即分离推理与训练服务，但在工程实现上更彻底地推进了异步粒度。相比veRL，Relax在多模态数据支持和MoE模型处理上表现出更低的性能损耗。

强化学习后训练正在经历两个重要变化，模型从纯文本扩展到全模态，训练流程从单轮反馈演变为多轮Agentic交互。

这种趋势对训练框架提出了更高的并发性和容错要求。Relax的服务化容错架构允许Rollout和Train独立扩缩容，节点故障不会导致整个任务中断，这在长时间运行的多轮交互训练中尤为关键。

Relax已在GitHub开源，技术论文同步发布在arXiv上。与veRL、DeepSpeed、vLLM等已有生态相比，Relax是一个较新的选择，其社区采纳度有待观察。但从已有技术指标看，它在全模态强化学习训练效率上提供了有竞争力的方案。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］