传统影视行业向VR转型,遭遇全景声制作瓶颈该如何解决?
2016-05-26 11:14 VR全景视频 音频 VR直播

孙学京:博士,曾就职于杜比实验室,毕业于美国西北大学,北京大学,多年从事沉浸式音频技术研究。2015年5月创立时代拓灵,担任时代拓灵CEO。时代拓灵是目前国内全景声技术的领先企业。

就连Google也在强调,声音是VR内容中一个鲜为人注意但却能提升沉浸体验的重要元素。声音可以成为VR影视内容叙事引导用户的重要手段。

鉴于声音作为一个内容表达元素被如此看重,走访了时代拓灵,CEO孙学京博士谈了他在这方面的经验。

时代拓灵位于科技寺创业空间,禅味十足的孵化器

TechTemple的理念:创业即修行

在这里"修行"的三十个团队,时代拓灵是其中之一

孙学京博士

1.VR视频内的全景声有多重要?

孙学京:关于声音,我研究很多年了,之前在杜比,我就研究过VR声场项目,后来做这个公司,也是因为认定声音在VR中是非常重要的组成部分。VR中的声音,一定会是帮助导演叙事的重要手段,至少目前被公众看好的几部VR电影中,声音都起到了至关重要的作用。

2.VR全声场的两种制作方式和优劣势分析

目前VR全声场的制作方式分为两种方式,一是现场收声,二是后期制作

VR视频中加入配合全景视频制作声音是一个新的挑战,虽然可以借鉴传统音频制作的经验,但是全新的录制方式与完全不同的后期合成处理方式,带来了新的需求和新的技术难点。

孙学京:现场采集声音难点在于环境问题会限制我们采集不到完美的声音,比如会有干扰,而且在全景声条件下我们很难控制这些干扰源。其实360度收声的目的就是要把所有声音都收集起来,这样不好甄选什么声音是我需要的什么声音是不需要的,也不好控制哪些声音要强一些哪些声音要弱一些,就会出现录制的声音不理想,环境音嘈杂,混响特别大等情况,听起来效果很不好,这样的话无论在硬件的技术上,还是软件的处理上,都需要进一步的加工。

孙学京:后期声音制作方面,声音会很纯净。就像我们现在看的电影,声音很安静。但是后期制作声音工作量会非常大,成本高,而且很多时候,现场的环境音也是必不可少的。这两种声音的处理方式并不存在优选,还是要看项目需要。有时候还要两种方法结合,例如我们刚刚制作的迷笛音乐节,我们就是用了一部分现场的声音,也使用了后期制作的声音,毕竟音乐会现场就应该有氛围的,欢呼声嘈杂声,这些声音让用户感受更真实,更贴近。

3.全向录音设备应该具备的特点

专业、小巧、便携,加上亲民的价格,才应当是VR影视创作团队的选择。

孙学京:目前现场收声问题是VR影视制作团队非常关注的,传统的立体声,5.1收音,人工头录音都是之前常用的技术,现在到了360°声场的时代,需要更多新的想法注入进去,市场上也陆续出现了一些新的设备,在之前我们的实际工作中也发现,很多设备都非常的笨重,很不方便。另外,我们也从国外采购了一些设备,但价格都非常昂贵。时代拓灵设计研发了一款全新的360°全向声场收音设备,我们的设备优势就是便携和亲民的价格。目前国内外的同行也都是在尝试探索阶段,不同的设备适用于不同的需求,这样才能够做到更专业。

4.为什么制作全景声还需要相应的引擎

录制完全景声后,还存在后期加工的问题,比如需要将音轨的相位和VR视频画面相位进行匹配,以使得具体的某个径向来源的声音和对应的画面在观看时,来自同一个源。

孙学京:我们自己在研究全景声技术的过程中,也趟过了很多水,甚至是坑。我们经过很多次实验才最后总结出一套算法,既能把传统立体声处理成全景声,也能把录制的全景声用最快速、简单、高效的方式渲染出来。然后就做成了SDK,这样会更适合非声学领域的专业人士快速上手。目前是免费的,主要还是希望借助我们在全景声方面的专业性,帮助更多VR团队制作更好更优质的360°声音。我们把这个SDK叫做“TwirlingVR Audio SDK”

孙学京:在VR影视内容中,专业的声效处理人员面对的问题可能是:

你需要能够精确还原全景声场中所有声源的位置、方向、距离和运动轨迹;

你需要大量音轨来支撑你需要的很多声音细节;

为了符合VR的特点,你可能还需要结合陀螺仪给出的头部旋转和位置等信息,随时加入音源,并实时渲染;

你甚至还可能需要头部旋转和移动下的情况下,去重建声场,实时调整声场方向、位置和距离。

孙学京:要想达到最佳的效果,你可能不得不这样做,因为这样处理出来的音效,才能让你的用户感觉好像真的置身于实际环境之中,同时还忽略耳机的存在。但要完成这么多复杂的声音处理,需要大量工作,是传统声效处理的好几倍。我们的SDK就是为解决这些问题设计的。

孙学京:考虑到使用这个SDK的开发人员可能大多数都是非声效专业领域的人士,我们为SDK设计了API接口,可以帮助开发者很容易集成到各类应用,产品或系统里。开发包里还包含必要的文档,代码示例和Demo,帮助开发者很快上手。

“TwirlingVR Audio SDK”支持多种VR360声场录音的渲染,如 Ambisonic 和人头录音,后期制作分轨音源,同时支持将传统立体声转变成适合VR声音播放的声音格式。

除了耳机模式,该款SDK还提供扬声器模式,用户通过一对扬声器也可以体验全景声的效果。 

“TwirlingVR Audio SDK”实现了跨平台,提供各个平台下的SDK,可以灵活的用于Android, iOS,Windows,Mac OS 以及Unity3D平台。使用者或开发者只需要根据API的程序参数,提供声源的音频数据,声源位置信息和头部运动信息,引擎就能实时计算返回耳机输出的音频数据。

VR全景拼接及VR直播专业解决方案

孙学京认为,随着全景拍摄逐渐成为一个大众市场,那么娱乐级的全景拍摄设备将有可能被手机取代,所以时代拓灵并没有推出自己的拍摄拼接一体机设备。

1.提供灵活的全景拼接解决方案

孙学京:在全景视频方面,拓灵是做了一个支架产品,支架上可以适配安装各种主流设备,包括高端工业级设备和中低端娱乐级设备。通过支架可以做到适配兼容,全景实时拼接输入。在拼接方面,我们也分为两档,一种是快速拼接,另一种是精细拼接。这其实是我们的优势,为什么这么说呢?作为全景拍摄拼接一体机设备,一旦完成,作品就成型了,这个拼接缝就不好修改了。我们的方案更灵活,可以适配不同设备,满足不同需求。

2.提供VR直播解决方案

孙学京:目前拓灵也支持VR现场直播,同样适配目前市场上的主流设备。我们可以输出4K的高清视频,这在拼接技术上是没有问题的,但是会受到现有推流传输及播放平台的限制,所以目前最常见的还是1080P的全景视频,建议现场宽带在10M左右。直播设备的设置过程远比实际拍摄时更复杂,设备一旦设置好,后面能做的操作很少。然而,毕竟VR直播是一个新的领域,我们要面对的问题很多,例如直播一场演唱会,现场灯光强弱变化导致的画面曝光问题,也是业内积极探索解决的难题,我们也会尝试不同的设备,通过软件来不断优化画面效果,达到更完美的试听效果。

拓灵云——国内首个VR全景内容制作云平台

随着各行业的VR转型需求以及全景从业者等对VR全景需求的不断增加,“拓灵云”基于自主研发的全景拼接引擎(TwirlingStitch Studio)结合云服务SaaS模式,为用户提供一站式云端VR全景声内容制作服务。

孙学京:目前我们拓灵云全景拼接有两种模式,一种是快速拼接,另一种是精细拼接。快速拼接应用比较广泛,适合娱乐级用户使用;精细拼接适合对拼接画质要求高的用户。目前拓灵云刚刚上线,试运营期间,我们为会员提供免费快速全景拼接服务。由于精细拼接的工作量很大,所以需要时间和大量人工。目前拓灵云可以完成全景拼接云处理,包括声音和影像,都可以非常效率的制作完成。

孙学京:考虑到全景视频文件可能会非常巨大,我们目前提供网络端上传和客户端两种形式,如果是网络端上传视频内容的话,我们会限定大小,这样也是为了保证文件在合理的时间内分镜头上传到云端进行拼接制作,比如4K级别几分钟的短片,是完全没有问题的。如果是比较大的文件,我们建议使用拓灵云客户端在本地进行拼接。为了确保拓灵云的正常运行,我们会对制作完成的作品保留三天后在云端删除,用户保存在本地即可。如有云端存储的需求,我们也可以提供相应的存储服务。

专注技术研发,提供VR全景视频+音频综合解决方案

凭借在全声场技术方面的绝对优势,时代拓灵成为国内首家可以提供专业全景视频+音频完整解决方案的公司。

孙学京:时代拓灵目前主要面对行业用户以及全景视频拍摄和制作创业者。在未来,随着全景视频越来越被更多用户认识和了解,时代拓灵会逐步发展为内容平台和分发渠道,提供更多的服务。目前,我们已经启动新一轮的融资计划,时代拓灵近期的发展核心是研发及市场拓展两方面。保持在行业里的领先技术壁垒,拓灵云运维,为行业用户提供更专业的全景声综合解决方案。