2026年4月15日,小红书AI平台团队开源了Relax,一款面向全模态与Agentic场景的大模型强化学习训练引擎。Relax不提供预训练模型,而是用于训练和微调模型的底层框架。
此前小红书hi lab团队已开源过文本模型dots.llm1和多模态模型dots.vlm1,Relax则进一步补全了训练工具链。
Relax基于Megatron-LM和SGLang两个高性能后端构建,核心设计是将Rollout推理生成与Train梯度更新解耦为两个独立服务,通过TransferQueue数据总线连接,实现micro batch级别的异步流水线。
传统方案中,即使是全异步框架也常常存在全局batch同步,长尾样本会拖慢整个训练步。Relax将同步粒度压到微批次,理论上可以消除这种拖累。
技术报告给出的数据较为具体。在16xH800多机配置下训练Qwen3-Omni-30B模型,Relax的全异步模式相比传统Colocate基线端到端提速76%,相比字节跳动开源的veRL框架的全异步模式端到端提速20%。
在Qwen3-4B的on-policy训练中,Relax比veRL获得了1.20倍的加速。在混合专家模型场景下,veRL在特定配置中性能下降了32%,而Relax的开销仅增加1.9%。此外,Relax验证了图像、文本、音频和视频四种模态的强化学习训练稳定收敛。
veRL是目前大模型强化学习训练领域的主流开源框架之一,由字节跳动火山引擎团队开发,其HybridFlow论文已被学术会议接收。
Relax与veRL选择了相似的技术路线,即分离推理与训练服务,但在工程实现上更彻底地推进了异步粒度。相比veRL,Relax在多模态数据支持和MoE模型处理上表现出更低的性能损耗。
强化学习后训练正在经历两个重要变化,模型从纯文本扩展到全模态,训练流程从单轮反馈演变为多轮Agentic交互。
这种趋势对训练框架提出了更高的并发性和容错要求。Relax的服务化容错架构允许Rollout和Train独立扩缩容,节点故障不会导致整个任务中断,这在长时间运行的多轮交互训练中尤为关键。
Relax已在GitHub开源,技术论文同步发布在arXiv上。与veRL、DeepSpeed、vLLM等已有生态相比,Relax是一个较新的选择,其社区采纳度有待观察。但从已有技术指标看,它在全模态强化学习训练效率上提供了有竞争力的方案。



