语音巨头时代来临! 谁将是中国Siri?
2013-10-12 11:21 siri 语音

如今,语音技术已经成为巨头的标配,百度、腾讯、搜狗、云知声它们或是传统互联网巨头,或是出身中科院技术豪门。巨头占领语音高点已是必然。而从去年开始语音市场受到业界关注,到今天云知声获得千万美金融资,语音市场春天是否已经到来?创业者在其中是否仍有机会?

 

文/罗超(搜狐IT独家发布)

大约一年前,中国移动以13.6亿人民币的代价获得了科大讯飞15%的股权,后者股价一路攀升,从不足30元到最高61元,成为一大牛股,市值高达240多亿人民币。而在刚刚过去的长假中,“云知声”也高调宣布获得金额为千万美金折合约1亿元人民币A轮融资。虽然其体量尚无法和科大相比,但这对沉寂一年的语音识别市场却是重大利好。

而同样涉足该领域的百度、腾讯、搜狗也正在加快技术迭代的脚步,作为战略级标配,语音技术在巨头眼中都格外重要。与国外巨头占领语音市场相似,业内普遍认为,受技术门槛的限制,语音市场创业窗口或已关闭。只属于巨头的语音战国大幕拉开!

Siri成国内语音市场爆发导火索

自从苹果Siri推出后,语音市场获得了高度关注。人们甚至惊呼这种更自然的操控将取代键盘。一时间跟随者纷纷入局。苹果劲敌Google带着Google Now强势杀入,凭着搜索技术特长和数据积累,在交互效果上略胜一筹。备受关注的Google Glass便由“Ok Google”这一酷极了的语音方式启动。

国内互联网公司百度、腾讯、盛大和搜狗均推出语音相关产品。搜狗在去年11月便推出了语音助手,其语音识别技术采用的正是“云知声”。而采用自有语音识别技术的百度,在去年圣诞节期间才推出语音助手,比搜狗晚了1个月。

腾讯在语音市场上则保守许多,微信发家于语音对讲机,可天然地移植到语音助手。但除了在4.5推出“语音提醒”公众号外,并未加强其他语音识别功能。这也符合腾讯一贯风格,在模式被验证,市场被教育成熟才会发力。值得注意的是,微信自建了一个30多人的技术团队进行语音识别技术研发。

除了百度、腾讯等巨头,盛大推出采用自有技术的“百灵语音助手”。中国移动联手科大讯飞推出“灵犀助手”,讯飞本身还有“语点”这款语音助手产品。创业公司智能360、虫洞语音助手、小i机器人则侧重语义解析和前端功能。

语音技术普及存在较多限制条件

语音哪怕Siri依然未成为主流的交互方式。国内也尚未出现能与“语音助手”划上等号的产品。去年中国语音市场经历了一场“军备竞赛”,没有人确定用户是否真的需要这么个玩意儿。但如今,大家都不遗余力,生怕落后,被人抢占传说中的入口。

1、“语音入口”可能只是传说

笔者并不是马后炮,在Siri推出时我认为语音交互有天生的缺陷:只能在安静的场景下使用,有噪音则难以识别;只能在私密的场景使用,否则语音命令会干扰他人。现实中这类场所并不多,哪怕在家中客厅使用语音功能,也可能影响家人。

就算无干扰场所存在,语音识别技术还有一个依赖:无线网络。上传大量的数据进行云端识别,必须有良好的网络。在一些没有WIFI的地方,使用语音操控简直是噩梦。有产品提供离线识别技术,安装包将增大数倍,识别效果也会直线下降。

2、语音产品的智能化技术仍差强人意

语音市场更难的问题在于“智能识别”的智能。语音技术分为语音识别、语义解析和语音合成。大多语音搜索产品能做到的仅仅是将语音转换成文字,然后通过文字去搜索,实际是“语音识别”这部分技术应用。语音助手要做到助理的程度,则需要能听懂人话,理解自然语言,就像钢铁侠里的贾维斯系统。现在的“语音转文字”这一步并不自然。而理解自然语言,依然是Google、百度等技术巨擘在攻坚的难点:语义解析。

3、用户尚未形成习惯

最后还有一个难点在于用户习惯。好的产品要触及用户,需要培养,改变和教育。这需要时间。

目前,使用场景、无线网络、语义识别和用户习惯这些限制均使得语音仍处于探路期。砸入大量资源,并未获得匹配的收获,于是有了泡沫。

创业者的时间窗口已经过去!

如今,语音语义这块是兵家必争之地,尤其是可穿戴设备兴起后,重要性更加凸显。语音市场必将成为巨头的游戏,技术和数据门槛高企,而语音创业的时间窗口可能已经过去。

1、巨头转型速度正在加快。“云知声”和“科大讯飞”在这些角逐者中的角色,就像地图领域的高德一样,提供数据和技术供上层服务商使用。巧合的是,科大讯飞也在谋求高德的从“B”到“C”的多元化转型之路。除了语音助手,科大讯飞还推出了讯飞语音输入法、面向幼儿教育的语音机器人硬件等产品。

多元化目前是语音巨头们正在做的事情,也是语音识别平台必须要做的事情。他们面向企业市场提供免费识别技术,但仅靠定制收费是行不通的。互联网巨头一贯热衷免费,走开放平台路线,笼络开发者进而获得流量、数据和个人用户。8月底百度导航彻底免费,与高德导航正面交锋就是活生生的例子。百度、腾讯等公司正在投入巨大的资金和资源加强语音技术建设。如果他们将语音识别技术免费必然将创造更大的语音生态圈。

2、资源技术优势成为创业阻碍。事实上,语音业务的基础是建立是在强技术驱动下才能实现的,而目前仅有巨头拥有相关优势。同时,语音技术加上语义解析技术,借助知识图谱、深度学习,实现对话式搜索,在移动互联网时代可以爆发出巨大能量,也更容易落地和商业化。单纯提供语音识别技术,做一个技术平台,商业化是个大问题。而百度等互联网巨头在垂直整合上相比专业领域的创业者,更有优势。

语音市场的春天正在到来?

或许,上述问题会长期存在,但不可否认的是,语音作为移动互联网的前沿技术仍值得业界期待。

就使用场景而言,Glass的“Ok Google”是个开始。乐视TV、锤子OS、易信、inWatch、小米3等产品纷纷推出语音交互功能,均采用了云知声或者讯飞这两家公司的技术。可穿戴设备的兴起,硬件创业的浪潮会带来更多的语音交互使用的土壤。

对于环境噪音的干扰,百度负责多媒体搜索技术的余凯博士在几个月前曾向笔者解释过抗噪技术,语音识别技术已经进化到可以区分人声和环境噪声,甚至可以根据声纹识别某个人的特定声音。这个技术还可以应用于移动支付。支付宝已推出利用声音指纹的“声波支付”。这也说明语音技术的使用场景只会被越来越多地发掘。

例如企业客服。今日便有消息称科大讯飞与安徽移动签下一笔近千万的大单。相对中移动,千万规模委实不算大单。但他们的合作内容或将引发新的企业Call Center的升级换代:后期中国移动在客服10086平台将采用讯飞的智能语音技术,用户可以直接说出需求。客服的声音也会采用语音合成技术,这是科大讯飞的优势,其语音合成甚至可以支持主流方言。受此消息影响,今日科大讯飞股票涨停。

无线网络的环境改善也是利好消息。4G牌照已是弦上之箭,不得不发。笔者近日拿到中国移动4G(TD-LTE)上网卡测试显示,4G网络在单用户使用时带宽已高达44M,下载速度为4MB/S。用户多了这个速度会受到影响,不过可以预见4G相比3G时代已经不可同日而语。除了4G,运营商、政府和商家对WIFI的投资热情也带来了覆盖更广的无线热点。

最后,谁将成为中国的Nuance还尚无定论。但这一市场已经带给了众多从业者无限的想象空间,可以预见,未来语音市场的将在巨头的你争我夺中成为业界焦点,而下游的语音产品也随之将逐渐丰富,一个移动语音生态生态或将在不久后形成.....