字节跳动发布Vidi2，视频理解能力超越Gemini3 pro_快讯

字节跳动发布Vidi2，视频理解能力超越Gemini3 pro

2025-12-01 15:30 字节跳动

字节跳动新的AI模型Vidi2，这是一个120亿参数的多模态大语言模型，专门用于视频理解。它能处理数小时长的原始素材，理解其中的故事脉络，然后根据简单提示生成完整的TikTok或电影片段。这个突破的关键在于视频理解能力。Vidi2在第二版中新增了精细的时空定位（STG）功能，能够同时识别视频中的时间戳和目标对象的边界框。给定一个文本查询，它不仅能找到对应的时间段，还能在这些时间范围内标记出具体物体的位置。

［本文为作者独立观点，不代表i黑马立场。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］