字节跳动发布Vidi2,视频理解能力超越Gemini3 pro
字节跳动新的AI模型Vidi2,这是一个120亿参数的多模态大语言模型,专门用于视频理解。它能处理数小时长的原始素材,理解其中的故事脉络,然后根据简单提示生成完整的TikTok或电影片段。这个突破的关键在于视频理解能力。Vidi2在第二版中新增了精细的时空定位(STG)功能,能够同时识别视频中的时间戳和目标对象的边界框。给定一个文本查询,它不仅能找到对应的时间段,还能在这些时间范围内标记出具体物体的位置。
[本文为作者独立观点,不代表i黑马立场。如需转载请联系微信公众号(ID:iheima)授权,未经授权,转载必究。]



