6月17日,据报道,京东团队计划于近期开源视觉语言实时交互模型JoyAI-VL-Interaction。该模型定位为8B规模的视觉优先交互模型,旨在将多模态大模型从传统的“一问一答”推进到“实时流式交互”。相关技术报告已在开源社区和海外AI技术圈引发关注。
与当前主流的轮次制多模态模型不同,用户上传图片或视频后提出问题,模型才开始回答,JoyAI-VL-Interaction试图让模型像人一样持续“在场”,通过摄像头、直播流、监控流等实时视频流观察现实世界,自行判断何时回应、何时保持沉默、何时将任务委托给后台模型。
系统不仅开源模型权重,还包括交互数据、训练方法和完整可部署系统,支持语音输入输出、可视化界面、长期记忆和后台模型接口。
这意味着开发者可以直接搭建一个能够观看视频流、自主判断并主动交互的实时AI助手。
京东团队将JoyAI-VL-Interaction与豆包、Gemini的App内视频通话助手进行了人工评测,覆盖监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆六类场景。
在58个案例中,JoyAI-VL-Interaction对豆包的总体胜率为77.6%,对Gemini的总体胜率为87.9%,其中在监控预警场景中对两个基线均取得100%胜率。
arXiv上发布的论文称,这是首个将模型、训练配方、数据与完整可部署系统一并开源的视觉驱动交互模型。
不过,评测规模有限,报告也坦承了模型的局限性。作为8B规模模型,JoyAI-VL-Interaction在通用知识、长尾场景、表达丰富度和稳定性上相比豆包、Gemini背后更大的模型和持续迭代的产品并不占优,训练数据也还有继续扩展和清洗的空间 。
评测仍处于早期阶段,尚未展开大规模系统性评估。报告将此视为一个积极信号:即便在当前数据规模下,模型已展现出不错的交互能力并观察到特定的能力涌现,说明将交互性训练进模型这条路数据效率较高。
这一方向并非京东独家的押注。上个月,海外Thinking Machines Lab也提出了“interaction model”的概念,认为自主交互性应当成为模型自身的能力被独立规模化。
两家机构几乎同时走到了相同的技术方向,说明“从轮次制走向交互式”是一个时机已到的趋势。区别在于TML目前放出的是research preview,而京东选择将模型、数据、训练方法和完整系统全部开源。
这类模型适合需要AI持续在场的场景,包括安防监控中的火情、摔倒、异常行为提醒,老人和小孩看护,电商购物、直播运营、赛事解说,以及AI眼镜和无障碍辅助等。
过去大模型主要比拼参数、知识和推理能力,但在真实世界中,一个AI助手是否有用,还取决于它能否持续观察、判断时机并在该说话时及时出现。
如果JoyAI-VL-Interaction按计划开源,它可能成为国内多模态开源领域一个从离线视频理解走向实时流式交互的新方向。



