谁是中国Siri
2013-12-18 20:44 Siri 语音助手

2011年Siri的出现让语音技术渗透进人们的生活,也将语音识别带入了新纪元。此前,“人机交互”一直只是个虚拟概念。这里所说的语音技术,主要是指将语音转换为文字,严格意义上的语音技术还包括语义分析和信息集成,即如何分析并满足用户需求,从逻辑上看是层层递进的关系。

《创业家》杂志六月刊

“你是屌丝吗?”

“如果我是屌丝,你一定是猥琐大叔。”

“才不是,我是高富帅。”

“你是高腐衰。”

这段对话来自百度语音助手与韩国Simsimi公司联手推出的“小黄鸡”,你可以与它对话、提问,并下达指令,“小黄鸡”自上线起就被视为“宅男解闷利器”。事实上,国内与“小黄鸡”类似的语音助手还有很多。

2011年Siri的出现让语音技术渗透进人们的生活,也将语音识别带入了新纪元。此前,“人机交互”一直只是个虚拟概念。这里所说的语音技术,主要是指将语音转换为文字,严格意义上的语音技术还包括语义分析和信息集成,即如何分析并满足用户需求,从逻辑上看是层层递进的关系。

这种特性决定了语音识别产业链分工相对明确。国内的语音识别领域,科大讯飞、云知声是提供底层服务的代表者,在此基础上衍生出的各类语音助手则更专注于语义分析和信息集成,也更贴近用户真实的生活场景。其中,已经在深交所上市的科大讯飞是产业链的龙头。2008年5月12日,科大讯飞上市第一天就被炒到30.31元,比12.66元的发行价翻了一倍还多。目前,国内许多语音助手都采用了科大讯飞的技术。

不过,Siri的火爆并没有带来国内市场的繁荣。虫洞语音助手创始人余志晨回忆,2011年产品上线后,眼见社交应用火了一拨又一拨,语音助手却始终不温不火。经过反思,余志晨认为语音产品本身的形态决定了它不是一个爆发性的产品,用户的使用习惯需要从零培养。

很快,中国开发者们改良了语音技术。与Siri枯燥的对话相比,国内语音助手做得更生机勃勃,用户可以用语音操控手机(如打电话、发短信)、查询信息(天气、交通、预订餐馆),以及语音问答(与机器对话、相互调侃)等等。这看上去与搜索引擎的功能类似,不过语音助手最实际的意义在于解放了用户的双手。其中的典型代表有智能360、虫洞语音助手、快说等小型团队的作品,也不乏百度、搜狗等巨头推出的产品。

未来,语音识别成为手机的基础功能已无异议,每部手机都将配有一个语音识别模块,通过这一模块可以随时调用任何功能和应用,就如同现在的GPS一样。对于开发者而言,单纯开发语音技术很难赚到钱,基于语音输入的应用服务,才是最具想象力的领域。

从战略角度分析,科大讯飞、百度等大公司都希望将语音输入变得集成化、一体化,以最终形成语音服务的闭环。短期来看,产业闭环会使服务效率提高,实现无缝对接。然而长远来看,集成化、一体化的服务也让巨头颇显为难。2012年搜狗立项做语音助手时曾希望覆盖全产业,打通从语音识别到信息集成的通路。不过很快,搜狗就放弃了自己开发语音识别技术,转而与云知声、科大讯飞进行合作。

眼下,各家语音助手都有短板。以搜狗为例,后端庞大的资料库使其在资源整合上拥有绝对优势,但前端的语音识别技术则相对薄弱,即便组建专门的研发团队,在识别准确度上也无法与科大讯飞、云知声等积累了十几年经验的专业团队相比。语音识别的技术门槛相当高,后台支撑需要靠经年累月的数据积累。这些依靠算法、爬虫获得的信息,短时间内难以获得,且价值呈逐年递涨趋势。

据《创业家》记者了解,在过去两年,市面上常见的语音助手类应用普遍获得了金额不菲的融资,动辄百万美元级别。尽管如此,语音助手们的盈利模式依然不清晰。相比较而言,Siri更像是一种功能,国内的语音助手们才是一款产品。苹果并不依靠Siri赚钱,但国内开发者们则不同,无论是技术层面还是产品创新层面,每一个环节都还有巨大的提升空间。以智能360、虫洞为代表的语音助手都已拥有几百万用户,但还远没达到盈利的临界点。

值得关注的是,微信语音的出现改变了用户的行为习惯,用户开始敢于在公共场合与手机对话,并逐渐形成了基于互联网的语音习惯。这个习惯一旦成熟,也将有利于语音助手的普及,提高用户的接纳度。

对于偏语义分析和数据挖掘的团队,早期第一位的还是用户体验。如果只做通用型的语音助手,恐怕难以做精,切入垂直领域是个不错的选择,如旅游、酒店、机票预订等。切准细分场景更有助于这些应用快速获得用户、实现商业化,当用户积累到一定数量后,也有做竞价排名和内容推荐的可能。现在,已经有语音助手切入细分领域实现差异化竞争。从今年下半年起,这种趋势将会愈发明显。