1月30日,生数科技发布了其视频大模型Vidu的最新版本——Vidu Q3。这款被官方称为“新一代模型”的产品,凭借全球首个支持16秒音视频直出的能力,在国际权威AI基准测试机构Artificial Analysis的榜单中位列中国第一、全球第二,超越了Runway Gen-4.5和Google Veo 3.1等国际知名模型,仅以微弱差距落后于马斯克旗下的xAI Grok系统。
对于普通用户而言,Vidu Q3带来的最直观改变是“能说会演”。过去的AI视频模型大多只能生成几秒钟的动态画面,且往往没有同步的音频,更像是一段会动的“默片”。而Vidu Q3首次实现了“声画同出”,能够生成包含同步语音、音效和动态画面的完整16秒视频。
这16秒并非简单的画面堆砌,而是具备了完整的起承转合能力,足以讲清一个微型故事或表达一种情绪冲突,使其从单纯的“视觉素材生成器”进化为能够参与叙事的“内容生产工具”。
这家备受瞩目的企业——生数科技,成立于2023年3月,是一家典型的“清华系”创业公司,其核心团队源自清华大学人工智能研究院。成立之初,团队就确立了自研多模态通用大模型的技术路线。2024年4月,生数科技发布了中国首个全面对标Sora的文生视频大模型Vidu,一举打破了国内在长视频生成技术上的瓶颈,成为国产AI视频大模型的领军者。
放眼整个行业,AI视频技术正呈现出竞争激烈的态势。除了生数科技的Vidu,国内外科技巨头和初创企业也在加速布局,但各家的技术路径和竞争优势各有侧重。
例如,美国的OpenAI发布的Sora,以其对物理世界的深刻理解、长达60秒的视频生成能力,重新定义了文生视频的上限,尽管目前访问受限且生成速度较慢,但其代表了行业未来的发展方向。谷歌发布的Veo 3.1,虽然在部分榜单上被Vidu Q3超越,但其API稳定且价格合理,在全球范围内可用,是开发者集成的优选。
在国内,快手自研的“可灵”模型以全场景优势在多项测评中斩获最高分,其在物理仿真、风格化创作等维度表现优异;字节跳动、阿里巴巴等科技巨头则依托算力优势与完整生态,构建了从内容创作到分发的全链条平台,字节跳动的“即梦3.0”和阿里巴巴的“通义万象”系统分别在消费级和产业级应用中占据重要地位。
目前行业整体仍处于高速迭代的早期阶段,面临着技术、成本和应用的多重挑战。
技术层面,虽然AI视频生成技术已从“单点突破”迈向“多模态融合”,能够生成包含复杂角色互动、微表情变化的高质量视频内容,但在物理规律模拟上仍存在局限性,如水珠运动、光影变化等细节难以精准实现,且在长视频连贯性上仍有瓶颈,30秒以上视频的角色崩坏率较高。
成本方面,算力成本依然是制约行业发展的关键因素,尽管轻量化模型与国产AI芯片结合推动了实时视频处理在移动端等边缘场景的普及,但高质量视频的生成仍需消耗大量算力,导致成本居高不下。
应用层面,虽然AI视频技术已渗透到影视、短视频、直播电商等多个领域,但目前视频生成在整体制作中的渗透率约14%,大多需多次生成与人工后期才能达到使用标准,且面临着版权和深度伪造风险,行业监管政策也在不断完善,要求技术应用更加合规和安全。



