据晚点报道,爱诗科技近期完成3亿美元C轮融资,由鼎晖投资领投,超过20家机构参与,创下中国视频生成领域最大单笔融资纪录。
这家成立近三年的公司,2025年底年度经常性收入已超过4000万美元,旗下PixVerse及拍我AI总用户数超1亿,月活突破1600万。
爱诗科技创始人王长虎曾担任字节跳动视觉技术负责人,完整参与了抖音和TikTok从0到1的视觉技术架构建设。2023年他创办爱诗,核心团队多来自字节、微软等科技巨头。
今年1月,爱诗发布PixVerse R1,宣称是全球首个通用实时世界模型,支持1080P分辨率流式视频生成,用户可在生成过程中随时插入新指令,画面随之动态调整。这一"实时交互"的探索路径,试图将视频生成从"结果导向"转向"过程即体验"。
1.字节快手两强并立,创业公司承压突围
字节跳动的Seedance系列是爱诗不得不直面的头号对手。
今年春节期间,Seedance 2.0爆火出圈,《黑神话:悟空》制作人冯骥给出"当前地表最强"的评价,更具杀伤力的是其商业化定价。
3月4日,字节跳动火山引擎公布Seedance 2.0商业化定价,生成一段15秒的标准视频对应成本15元,折合每秒1元。这一价格锚点意味着高保真视频正在变成像水、电一样可量化采购的基础服务。
字节的即梦AI由剪映团队孵化,与剪映时间线及抖音、今日头条等分发渠道深度打通,构建起"模型+剪辑工具+分发场景"的完整闭环。
快手可灵则走通了另一条路。截至2025年7月,可灵全球用户突破4500万,累计生成超2亿个视频,服务超过2万家企业客户,累计收入超1亿元。
可灵支持生成1080p分辨率、最长2分钟的视频,采用3D时空联合注意力机制对物理规律进行建模。其O1系列模型强调多模态理解和物理世界的仿真推演,试图让模型内化重力、流体动力学等规律。
快手借助可灵已经建立起付费心智,其会员体系为创作者提供了明确的商业化路径。
面对这两座大山,爱诗联合创始人谢旭璋坦言有焦虑,但他表示,Seedance 2.0对爱诗的影响并不明显,因为视频生成的市场足够大,大家还没到需要正面竞争的阶段。
他强调,爱诗的核心用户是那些第一次用AI做视频的普通人,而字节流量最大的视频产品抖音主要还是做短视频消费,两者定位存在差异。
2.实时交互开辟新战场,商业化验证成为分水岭
视频生成赛道的竞争已从"能否生成"升级为"能否进流程、进交付"。核心指标包括多镜头角色一致性、相机语法精确控制、角色复用性及音画一体化成片能力。
AI视频生成成本已降至约300美元/分钟,相比传统影视成本实现"数量级"下降,生产效率提升80%以上。成本的急剧降低催生了AI漫剧等新内容形态的爆发。
爱诗的差异化打法在于押注"实时交互"。PixVerse R1采用Omni原生多模态架构,文字、图像、音频、视频在同一Token流中联合训练,使模型可理解跨模态物理关联。
其自回归机制确保每帧生成均参考历史内容,支撑长序列稳定性;采样步数压缩至1-4步,通过冗余计算剔除与内容感知型算力分配保障质量与时效平衡。
实测中,R1可连续生成包含完整叙事流的视频,镜头逻辑具备自主性,模型具备跨数十秒的长期记忆能力。这一技术路径将视频从固定的线性播放,转变为可以实时反馈、动态演变的连续可视化流,其想象空间延展至虚拟社交、沉浸式娱乐甚至生成式游戏。
但R1尚未完全满足严格定义的世界模型标准,测试中存在转场跳接、角色形象偶现不稳定等问题,反映当前角色绑定与物理规则建模仍待强化。
技术突破需要持续的算力投入,而这正是3亿美元融资要解决的问题。
从行业视角看,AI视频的商业闭环正在确立。
天风证券研报指出,AI漫剧行业已完成从0到1的商业验证,剧目数与广告投放呈现跨越式增长特征。
但硬币的另一面是残酷的淘汰赛,随着Seedance 2.0等顶级模型的发布,平台对内容质量的要求水涨船高,低质内容迅速失去生存空间。
对于爱诗来说,3亿美元是它参与这场盛宴的资本。
但真正的考验在于,面对字节跳动定下的"1元1秒"商业化标尺,以及快手可灵在专业创作者心中建立的付费心智,爱诗能否凭借实时交互的技术差异化和与中国儒意等产业方的场景协同,构建起自己的护城河。
当大厂把技术做成基础设施,留给创业公司的容错空间已经越来越窄。



