四月的AI视频生成赛道突然变得有趣起来。一个名叫HappyHorse的匿名模型,在没有任何官方宣传的情况下,悄然登顶Artificial Analysis的AI Video Arena排行榜,文生视频和图生视频两个无音频类别均排名全球第一,直接超过了字节跳动的Seedance 2.0和快手的可灵。
而这个模型,现在基本可以确认出自阿里巴巴淘天集团。
1.音视频同步生成,技术架构足够纯粹
HappyHorse 1.0的技术方案走了一条与众不同的路。大多数开源视频模型的处理流程是先生成无声视频,再用另一个模型配音,再找工具做口型对齐,工序多、误差大。
HappyHorse用一个统一的Transformer同时处理视频和音频,一次推理直接输出带声音的成片,口型、脚步声、环境音都在同一个过程里生成,不需要后期拼接。
模型参数量150亿,架构上是纯自注意力Transformer,没有交叉注意力,没有独立的音频分支,把所有模态的token拼成同一个序列,让模型自己学会跨模态对齐。
这种极简设计在当下动辄数百亿参数、各种复杂模块堆叠的模型中,显得相当克制。
速度方面也做了优化。采用DMD-2蒸馏技术把去噪步数压缩到8步,再配合MagiCompiler编译加速,单张H100上生成1080p视频只需约38秒,256p预览版本2秒左右就能出来。
模型还原生支持七种语言的唇形同步,包括英语、普通话、粤语、日语、韩语、德语和法语,这些语言的口型、语调和语音时序是和视频一起联合训练出来的,不是后期贴上去的。
2.匿名登顶,来自“可灵之父”的回归之作
这个神秘模型引发的最大讨论就是它的身份。网友在X平台上各种猜测,有人说是阿里万相Wan 2.7的马甲,有人指向快手。
最终,多方信息确认,HappyHorse 1.0由淘天集团未来生活实验室团队打造,项目由张迪领衔。
张迪这个名字在AI视频圈并不陌生。他曾经是快手副总裁、可灵AI技术负责人,被业界称为“可灵之父”。
2025年8月快手组织架构调整后,张迪不再担任可灵AI事业部技术部负责人,9月初短暂加入哔哩哔哩,一个多月后离开,11月重返阿里巴巴,出任淘天集团未来生活实验室负责人,直接向淘天集团首席科学家郑波汇报 。
仅用了大约五个月,张迪就带着团队拿出了HappyHorse 1.0。从快手可灵到阿里欢乐马,张迪的身份转换本身就是一个有意思的变量。
一个人在同一个赛道先后服务两家直接竞争的大厂,这种人才流动在AI行业已经不算罕见,但每次都会重新洗牌竞争格局。
3.榜单数据好看,但样本量有差距
从Artificial Analysis的盲测数据来看,HappyHorse 1.0在文生视频(无音频)Elo跑分1386,图生视频(无音频)Elo跑分1412,均领先Seedance 2.0。在有音频的两个榜单上,Seedance 2.0仍保持微弱领先。
不过需要留意的是,HappyHorse的对比评测样本量约3500次,远低于Seedance 2.0的约7500次,排名后续仍有波动的可能。
国联民生证券的研报也提到,这是一款“画面和场景很强、音频也不错,但复杂动作和分镜控制还不如Seedance等玩家那么成熟”的高质量视频模型。
这意味着欢乐马在某些维度上确实领先,但在更精细的控制能力上还有追赶空间。
4.开源+匿名发布,中国AI的新打法
值得注意的不仅是模型本身的能力,还有它的发布方式。先以化名发布模型,靠产品性能在社区自然发酵,再择机官宣,正在成为中国AI公司的新打法。
此前小米的“Hunter”模型也是类似路径。这种匿名发布的好处是可以让评测结果更客观,规避品牌光环对用户判断的干扰。
更关键的是,HappyHorse 1.0宣布完全开源。从万相Wan到通义千问Qwen,阿里的AI模型一直坚持开源路线,欢乐马的加入进一步丰富了这一矩阵。
而字节跳动的Seedance 2.0、快手的可灵都是闭源模型,开源与闭源的路线分歧在这个赛道上越来越明显。
开源能不能在商业化和社区生态上真正撼动闭源玩家,目前还没有答案。但张迪带着可灵的经验回归阿里,选择了一条与老东家截然不同的技术路线,这本身就值得玩味。
5.竞争的终点在哪里
腾讯正在打磨“探梦DreamNow”AI内容平台,混元3.0计划4月发布,但视频生成模块的具体参数至今未披露,跨代升级能跳多远,外界只能猜。
快手可灵已实现4K输出和最长3分钟视频生成,字节Seedance 2.0在今年2月上线后引发创作者圈层震动,连《黑神话:悟空》制作人冯骥都给出了“地表最强”的评价。阿里此时带着欢乐马入场,三家大厂在AI视频赛道上基本到齐了。
AI视频生成的技术迭代斜率在显著加快,但单段生成时长仍然受限,角色跨镜头一致性刚达到商业可探索门槛,复杂情感表演和物理交互还不成熟。
技术指标的突破速度再快,最终还是要回答一个更根本的问题,当所有大厂都能做出相似水平的视频模型时,用户会因为什么而选择其中一家?是技术参数,是生态整合,还是使用成本?这个答案现在谁都给不出来。



