3月31日,爱诗科技发布了新一代视频生成模型 PixVerse V6。
官方的宣传口径是“AI 视频迈入物理常识时代”,这个说法听起来不好理解,但背后确实指向了一个长期困扰行业的核心难题:如何让 AI 生成的视频符合物理直觉。
过去两年,AI 视频模型的进步主要体现在画质提升和语义一致性上,但物理规律的模拟一直是短板。
“水该往下流、物体碰撞应有动能传递、高速运动中人物不应变形“这些人类两三岁就建立的常识,对 AI 模型来说却极难掌握。
PixVerse V6 在这方面的改进值得关注。据官方介绍,V6 在高动态场景中大幅减少了穿模与干扰现象,模型能够更准确地模拟液体流动、布料摆动以及物体碰撞的物理逻辑。
实测反馈也印证了这一点,有测试者用非常简短的提示词生成了蜂蜜滴落、骏马奔跑等场景,重力、黏度和运动惯性都呈现出符合直觉的表现。
在人物表现方面,V6 改进了皮肤纹理和光影反射,人物表情随镜头推进呈现层次分明的情绪递进,告别了以往 AI 视频常见的“磨皮感”。
在叙事连贯性上,V6 优化了多镜头切换时的视觉统一性,不同景别之间的运动惯性、光源方向和阴影关系能够保持一致。
模型还支持从单一提示词生成带音效的多镜头短片,声画同步能力达到了一定水准。据 Artificial Analysis 发布的最新榜单,PixVerse V6 位列全球第二。
1.AI 视频赛道正在重新洗牌
就在 PixVerse V6 发布的前一周,OpenAI 宣布将逐步关闭 Sora 服务,把研发重心转向具身智能与机器人系统。
Sora 曾被视为文生视频的标杆,从2024年初的惊艳亮相到2025年的正式上线,再到如今关停,前后不过两年时间。
OpenAI 给出的理由是算力成本过高且商业化路径不明朗,这无疑给整个 AI 视频赛道泼了一盆冷水。但有意思的是,行业并未因此降温,反而出现了更多差异化竞争。
快手的可灵 3.0 在 2026 年 1 月全量开放,动作控制 3.0 号称媲美专业动捕技术,并在 Artificial Analysis 榜单中位居第一。
可灵的商业化表现相当亮眼,2026 年 1 月的年化收入已超过 3 亿美元,快手创始人程一笑预计今年收入可实现同比翻倍以上增长。
Runway 则在 2026 年 1 月发布了 Gen-4.5,并在 3 月底推出了 Multi-Shot App,将 AI 视频从单镜头生成推进到自动完成多镜头剪辑的完整短片,估值已达 53 亿美元。
谷歌的 Veo 2 同样在理解物理世界方面表现出色,支持 4K 分辨率和超长分钟级的视频生成。
2.通往“世界模型”的岔路口
一个值得追问的问题,AI 视频生成的方向,究竟是更好的视觉效果,还是真正理解世界的运行规则?目前行业内存在明显的路径分歧。
Sora 退场后,OpenAI 转向了更宏大的“物理 AI”叙事,试图让 AI 与真实世界互动而非仅仅生成画面。英伟达等公司也在推动从“生成画面”升级为“生成可行动的 3D 世界”。
而生数科技、Runway 等则选择从视频生成模型出发,让模型理解物理规律并据此预测动作,走“视频即世界模型”的路线。
PixVerse V6 的技术突破表明,至少在短期内,让 AI 更好地模拟物理常识是一条切实可行的方向。但这是否是“世界模型”的真正路径,抑或只是通往更高阶智能的一个中间步骤,目前还难以定论。
可以确定的是,当模型开始理解光线、运动与重力,AI 视频便不再是简单的像素拼接,而正在走向对真实世界的模拟与理解。这条路的终点在哪里,没有人能给出确切答案。



