被互联网女皇看好的语音,将成为巨头争夺的下一个焦点
2016-06-06 14:41 语音 巨头

语音即将成为最重要的交互方式之一,语音技术从量变到质变的引爆点已经到来。

KPCB合伙人、享有“互联网女皇”称号的玛丽·米克尔的互联网趋势报告在近日发布。毫不夸张地说,这份报告是互联网行业分析的“超级碗”,它用200多页的Keynote浓缩了全球庞大而复杂的互联网发展现状和趋势,是互联网从业者、投资人以及想要窥见互联网风貌的外界人士不可多得的参考资料。

有人说,今年报告亮点不多,在我看来,亮点却非常之多:不仅覆盖了手机、电商、社交、广告等基本面,还点名了移动营销、网络直播、智能汽车诸多正在崛起的所有新兴领域。与IDC等机构报告不同的是,女皇报告更侧重于行业现象概括和行业趋势展望,事实证明,她对未来趋势的评判准确率相当之高。而今年报告最大亮点在于:语音。213页的Keynote,23页给了语音,篇幅远远超过汽车、直播等领域,仅次于每年的重头戏即“营销”的31篇。

女皇认为麦克风正在取代键盘

玛丽·米克尔认为,语音正在被重塑,成为人机交互的新范式,在过去75年里,每10年就有一次人机交互的重大革新,人类对机器的操作,从物理手柄按键,到物理键盘鼠标,再到触摸屏,而现在语音成为了重要的交互方式。

 

在其看来,语音交互相对于传统交互而言具有以下特点:输入更快速,人类每分钟可说出150个单词,打字却只能完成40个单词;使用更简单,不需要用手和眼,时间更及时,不需要任何学习;更加个性化,机器可基于上下文、环境、位置、语调等大环境更好地理解人类的需求。从技术角度来看,语音计算具有成本低、尺寸小的特点,特别适合物联网。

为何语音现在会爆发?玛丽·米克尔认为:

1、技术成熟是核心原因之一。如果语音识别准确率从95%提升到99%将从量变引发质变,即“爆发点”到来,语音识别准确率已从2010年的70%上升到今年的90%,百度、谷歌、Hound等平台的语音识别准确率已超过90%,针对户外嘈杂环境和讲话者特性的语音识别是下阶段的攻克重点。

2、语音交互应用正在日益变多。语音搜索正在蚕食搜索份额,百度、谷歌的语音搜索在近十年来均取得了数十倍的增长,其中安卓、百度和必应语音搜索比例分别达到20%、10%、25%;以Siri为代表的语音助手正在快速普及,美国用户使用这类工具的比例,已从2013年的30%增加到2015年的65%。因为语音能够解放双手和眼睛,人们越来越多地在车里、家里和随身使用语音。相关数据显示,从2014年到2016年间,全球API调用百度语音识别以及文本转语音(TTS)的每日使用量急速攀升,百度语音在百度产品中使用率快速增长。

 

3、语音吸引更多第三方开发者。开发者拥抱语音大幅增加了支持语音交互的软件和硬件,女皇重点阐述了Amazon眼下炙手可热的硬件:Echo。其内置了Amazon Alexa语音助手,目标是占领家居、汽车、手机的麦克风,还能智能购物。这款产品销量已突破400万台。女皇更是大胆指出:语音拐点已经到来,在2015年智能手机销量下滑之后,Echo销量或将腾飞。

 

英雄所见略同。在玛丽·米克尔预测语音会成为核心交互方式的同时,科技巨头早已在这一领域大力投入。2014年百度世界大会上李彦宏预测:五年内语音和图像搜索比例有可能突破50%。百度在人工智能上一项显著的进展便是基于深度学习的Deep Speech在噪音环境下的语音识别效果超越了谷歌,这一研究成果在玛丽·米克尔的报告中被提及,该项技术已成功应用到百度语音搜索上。

目前,百度语音搜索已通过人工智能做到了“听”和“说”,而且还尝试完成人类复杂的行为——沟通。集成语音识别、语义理解、深度问答、知识推理、多轮对话、智能摘要、情感分析、语言生成、语音合成等能力于一身后,相较于键盘输入,百度语音搜索已经能够满足用户的多种复杂需求,引领人机交互迈入听说时代。

此外,不久之前的谷歌I/O大会上,最亮点产品是类似于Echo的Google Home,其内置了Google Assitant语音助手。而在即将召开的苹果开发者大会WWDC上,iOS 10最大亮点很可能会是Siri。语音是下一站,已成全球共识,“麦克风+触摸屏”取代“键盘+鼠标”,已是大势所趋。

语音正在多个领域全面开花

“女皇报告”重点提到了语音的三大典型应用:搜索、助理和Echo,一个重要事实是,语音不只是在这些领域发挥作用,在许多领域,它都比键盘越来越有存在感。

1、语音搜索:移动搜索的重要分支

谷歌、百度、Bing,全球主流搜索引擎的语音搜索比例都在逐步增加,麦克风图标变得跟搜索框一样重要。搜索引擎来自移动端的搜索流量均已超过50%,人们在自带麦克风的移动设备上使用语音更方便,而在移动场景下打字并不方便。有报告指出,百度语音搜索的整体用户量在2015年增长超过3倍,用户中的90后和00后的人群占比接近50%,百度语音搜索已经成为众多年轻人移动互联网生活的标配,优势在于省去了中英文输入法切换的繁琐、支持口语化多轮交互、能够提供贴心的语音播报和有声搜索。

2、语音助手:不再是被调戏的玩具

几年前,Siri这是一个被调戏的玩具。现在,它可以理解很多命令,比如设置闹钟、添加日历,打开App等,语音助理已完成从玩具到工具的蜕变。除了Siri之外,Windows内置的Cortana、Google Now升级而来的Google Assitant,以及百度、搜狗、科大讯飞等公司均推出了自己的语音助理软件。

以百度推出的度秘为例,已经接入到手机百度APP,用户可在手百端直接调用,使用语音对话的形式享受点餐、购物、路线、订票等多项生活类服务。可见要做好语音助理并不容易,除了语音识别和语义理解之外,它必须要能“完成任务”,而这需要获取其他设备和应用的控制权,而这一点只有巨头才能做到,创业型玩家基本已经消失。

3、语音通讯:不再是昂贵的沟通

微信能够成为超级App,一大重要原因在于它支持语音通信,类似于对讲机的语音交互,给了人们在传统手机通讯下前所未有的体验。需要流量,但相对于传统电话而言已很廉价。事实上,传统电话也已被互联网化,有信等网络电话App的崛起表明,人们未来只需要为语音通讯花很少的钱。女皇说,语音是最有效率的交互方式。除此之外,语音还是最自然、最简单和最有效的沟通方式,免费的语音通讯将会成为大势所趋,运营商正在被逼着依靠贩卖流量谋生。

4、语音内容:不再是冷门的形式

微博刚刚兴起时,许朝军做了一个啪啪,要做语音版的微博,后来发生的事情大家都知道了。不过,语音内容正在卷土重来。最近在行做的“分答”十分火爆,这款App集合了语音、打赏、共享经济诸多新兴模式,让知识分享前所未有的有趣。而在去年,喜马拉雅等网络电台崛起了。

这些现象均表明,“声音”依然会是十分重要的一类内容形态,人们不会浪费耳朵这个重要器官,在许多场景下,“语音消费”都更适合,比如开车时,高德地图与林志玲等明星合作的语音导航就取得很好的市场反馈。在许多垂直领域,例如教育,语音技术同样在体现其重要性,比如通过语音技术做口语训练。就是说,不只是“麦克风”变得重要了,“喇叭”也在变得重要。

 

5、语音硬件:随时待命的助理

“女皇报告”说,Amazon Echo将要起飞。除了Echo之外,Google 已推出Google Home硬件,拥有Siri的Apple很可能会发布类似产品。为何“语音助理硬件”会普及?为什么不直接用手机上的Siri等助理呢?因为手机是个人设备,并不适合家庭成员共享;而当前的语音技术,让手机支持“随时待命可被唤醒”会很耗电,基于Echo等家用设备不需担忧这个问题。

正是因为此,类似于Echo的产品将成为接下来的爆点,国内巨头同样在布局,京东已推出叮咚智能音箱,阿里巴巴联合科大讯飞推出了“飞儿”,语音技术成熟的百度近日推出的度秘实体机器人也成功入驻肯德基,通过多轮交互和语音语义理解等技术为用户完成智能点餐的过程。除了专用的语音助理硬件,语音与电视、与汽车等硬件的整合也会加速,国内的“Echo”大战即将爆发。

正如女皇报告所指出的那样,语音即将成为最重要的交互方式之一,语音技术从量变到质变的引爆点已经到来。除了交互之外,语音还将在搜索、内容、通讯和硬件等领域全面开花,“麦克风”变得重要,“喇叭”亦将变得重要,关于声音的战争已经拉开序幕。

(本文为投稿文章,作者罗超,微博@互联网阿超,微信:luochaotmt )