“音乐届ChatGPT”Suno成最新热门应用 多模态内容生成渐趋成熟
2024-03-29 15:50 音乐届ChatGPT

距2024开年仅仅3个月,AI行业便已风云迭起,前有Sora引爆文生视频热潮、万兴“天幕”带来音视频多媒体大模型应用范例,后有Kimi强势突围早已略显拥挤的语言理解赛道。而最新站上行业“浪尖”的,则是一款被称作“音乐界的ChatGPT”的产品。

近日,AI音乐生成软件Suno发布V3版本,仅需要简单的描述,就可以生成2min长度、广播质量级别的音乐,包含从歌词到人声和配器的所有内容。用户甚至可以引导它准确选择想要的流派,从三角洲蓝调(Delta Blues)到电子寒潮,还可以变换方言。有国内用户用周杰伦的歌词作为基础,让Suno重新生成曲调,便“重制”了《以父之名》《夜曲》《七里香》等经典曲目,生成效果令人惊艳。

窥一斑而知全豹。从2023年以ChatGPT、文心一言为代表的大语言模型,再到2024年Sora、Suno等音频、视频类大模型,AI行业正向多模态生成狂奔。正如AIGC软件A股上市公司万兴科技(300624.SZ)董事长吴太兵指出,大模型正在从图文1.0时代进入到以音视频多媒体为载体的2.0时代。IDC中国研究总监卢言霞也表示,要全面打开生成式AI的想象力,还是要依托多模态大模型。

东方证券研报指出,多模态大模型一方面有利于形成图片、视频等更加生动活泼、更具交互性的应用,从而有助于C端爆款的诞生;另一方面,多模态大模型能真正打通物理世界和数字世界的障壁,实现与物理世界最自然的交互,从而对自动驾驶、人形机器人等具身智能领域的突破提供有力支撑。

业内人士认为,多模态大模型将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力,既可以提高生产速度又可以提高生产数量,还可以创造全新的视听感受,能够帮助企业真正实现降本增效、提升用户体验。

目前,国内玩家在多模态大模型层面的布局尚且较少,其中,万兴科技旗下的万兴“天幕”在多模态内容生成能力上的表现较为瞩目。

前不久,万兴科技官宣其旗下音视频多媒体大模型万兴“天幕”正式通过国家网信办、国家发改委等七部门发布的《生成式人工智能服务管理暂行办法》备案审核,成为湖南首批通过备案的大模型之一,也是备案制实施以来首个获批可面向用户开放服务的音视频多媒体大模型。

万兴“天幕”聚焦数字创意垂类创作场景,基于15亿用户行为及百亿本土化高质量音视频数据沉淀,打造基于大模型架构的AIGC应用基础底座,全链路赋能全球创作者。据透露,万兴“天幕”即将对外开放商用,并将全面集成到万兴科技旗下产品中落地应用。

多模态内容生成能力方面,万兴“天幕”以音视频生成式AI技术为基础,由视频大模型、音频大模型、图片大模型、语言大模型组成,涵盖文生视频、文生3D视频、视频AI配乐、数字人播报等近百项音视频原子能力,同时支持全球不同语言,具有“专精特快”优势,可专业提升视频创作效率、精细化提升垂类质量、特色化补齐创作闭环、快速赋能应用智能化升级,致力于为全球用户提供音视频创作完整解决方案。

目前,万兴“天幕”相关能力已在Wondershare Filmora、Wondershare Virbo等海外产品上规模化商用。数据显示,在万兴“天幕”的加持下,使用产品AI功能的用户数倍速增长,赋能效果显著。