当手机语音助手成为巨头们的下一战，这家公司要做的是让它“用起来”| AI创新50

2017-05-31 16:32 语音助手 AI 奇点机智

让语音助手效仿人的操作，把“打开APP”这个功能，通过语音实现，怎么样？

作者 | 杨洁

编辑 | 李白

李飞飞说，谷歌下一步致力的，是让AI民主化。

在它真正实现之前，智能语音助手，却率先走入了一个高潮。植入了Alexa的亚马逊Echo，成为互联网行业近几年内最重要的产品之一；谷歌的Google Home，也在今年的谷歌I/O大会上表示加入了电话功能；微软的Cortana音箱在近日亮相；而据说，苹果Siri的音箱也即将问世了。

这场语音交互的狂欢，是基于交互形态改变作出的判断。电脑的图形交互第一次改变了世界，而智能手机的多点触控，把移动互联网时代和PC时代彻底区分开来。在全新的IoT时代，新的交互方式也将诞生。当更多的设备可以联网时，触屏之外，语音就是被寄予期望的下一个核心的入口级产品。巨头们所做的事情，无非是用智能语音助手连接各种互联网服务，音箱不过是它们选择的载体之一。

智能手机，已然成为我们延伸的身体“器官”之一，手机语音助手的开发自然也不甘落后，发起对巨头们的挑战。华为在美国的mate 9中加载了Alexa，而据彭博社报道，华为也正在研发自己的语音助手。在谷歌把语音助手整合进自己的智能机之后，三星宣布收购Viv Labs，开发自己的语音助手Bixby。

然而，如今大多数智能手机中的智能语音助手，仍然处于一个尴尬的位置。即使广为所知的Siri，也难免成为日常被“调戏”的对象，而其作为“助理”一面的功能，却并未得到重点体现。从而它们也成为手机中，一个颇有些“鸡肋”的存在。

而若要实现语音助手作为交互形态的下一代入口，进而建立平台级生态，也必须要先解决一个问题：让语音助手，能够真正应用起来。

这也是奇点机智（Naturali）在考虑的问题。今年4月，乐视超级手机面世，其中的智能语音助手，就是奇点机智所开发的“小不点”，它要解决的，就是智能手机中语音助手的实用性问题——能够深入应用底层，通过语音指令实现对手机内APP应用的操控。

为什么Siri用不起来？

奇点机智的两位创始人，邬霄云是纽约州立大学计算机博士，在谷歌研究院工作8年，主攻大规模机器学习和自然语言理解。林德康是加拿大Alberta大学计算机教授，之前也曾在Google担任高级管理科学家，主要研究方向是自然语言处理，也是华人圈少数几个国际计算语言学会ACL Fellow之一。

奇点机智联合创始人林德康教授

在离开谷歌的前几年，林德康一直在主攻谷歌搜索的自动问答项目，针对用户的问题，通过关键词匹配，将搜索结果中最优答案摘录整合提供给用户。而在研发过程中，在语义理解领域的积累之外，他们也注意到，语音识别技术在过去几年中经历了巨大的飞跃，已经逐渐走向成熟，识别的准确度大大提升。一个交互形态改变的时代即将来临。“语音识别已经变得太容易了——技术走到了这个节点，我们认为，最好的创业时机来临了。”他告诉黑智。

奇点机智给自己设立的一个很简单的目标就是：链接人类对手机的需求和手机应用里的各项功能。小不点就是奇点机智为安卓生态打造的智能语音应用助手，乐视则是小不点的第一个企业客户。

“目前智能手机中的语音助手为什么用不起来？因为它能做的事情还太少。”林德康说。例如Siri，它固然能够帮助用户设置闹钟、打开程序、打电话之类，但是这都是苹果自带的APP，它仍然不能调用第三方APP。如果你是要询问问题比如“中国的首都是哪里”，它只会推送搜索引擎中的网页供你选择，你需要发个红包，它最多为你打开微信。

“它需要集成第三方APP的API才能调用，但这想要推广，是个非常缓慢的过程。”林德康告诉黑智，“自从苹果提出可以支持连接第三方应用到现在，仍然数量还很少。功能的限制，是语音助手没有得到普及最主要的原因。”

而如果语音助手可以不必调用第三方APP的API，效仿“人的操作”，把“打开APP”这个功能，通过语音实现呢？“小不点”就利用了Android系统中的Accessibility功能，来解决语音助手的实用性问题。

对于那些由于视力、听力或其他原因，不能方便使用手机的用户，Android提供了Accessibility功能和服务帮助他们操作设备，包括文字转语音、触觉反馈、手势操作、轨迹球和手柄操作。

而小不点，就可以直接利用Accessibility提供的模拟用户点击功能，在用户发出指令后，通过读屏，进行虚拟点击操作，不需要用户亲自动手，也无需调用第三方APP的API，实现自动点击。例如，当你说完“给某某发10元红包”之后，小不点会打开微信，跳转入对该联系人发红包界面，填好金额，等待用户输入密码并发送。但所有涉及到金融支付的指令，“小不点”都会自动停留到支付界面。

“小不点”发红包的过程

通过这种方式，小不点可以自由操控用户手机上的大部分常用APP。而一旦遇到小不点目前还没有实现的APP操作，其中的智能学习功能则可以发挥作用。当用户激活学习功能后，只需按照平时的步骤操作，小不点会自动记录，用户日后再次下达指令后，自动完成所有操作和跳转。

这是和Siri、度秘等语音助手完全不同的模式。“和第三方APP进行谈判，把它们的功能集成进来，对开发者们而言，也可能会引发他们的抵触。”林德康说，“而现在我们并不需要调用他们的API，不会触及他们的用户和功能。而对我们而言，也会节省开发的难度和成本。”

语音+图形交互方式相结合

自动学习、语音识别和语义理解，是小不点背后的主要技术组成部分，均为奇点机智自主研发。林德康表示，采用自己的语音识别技术，可以留存具备更多可能性的信息，及时进行功能优化，同时，也为语音系统训练积累更多的数据。而由于两位创始人都拥有在谷歌专攻自然语言理解方向的背景，奇点机智在语义理解上，具备更加明显的技术优势。它能够根据关键词的表达进行推理，了解用户的真实意图。

在黑智对加载了小不点语音助手的手机体验中，它不仅可以完成之前提到的发微信红包命令，当在告诉它打开视频播放某集电视剧时，它能够自动打开视频APP，完成页面跳转；在打车时，说出出发地和目的地，它会自动打开滴滴等打车APP并完成操作；告诉它发送位置给某人，它会调用微信通讯录中该联系人信息，并发送地图位置信息。据林德康透露，目前，小不点已经开始进行多轮对话的训练。

“这种对话是存在边界的。”林德康说。相较聊天机器人的开放域对话系统，小不点的这种语音助手开发无疑难度是相对降低的，从而也能够更加准确地理解用户意图，并达成实用性。

或许，小不点并不意味着极高的技术门槛，但是，其中，却蕴含着奇点机智对未来交互方式的思考。而尽管语音交互将成为下一代流量入口，似乎已经是不可改变的趋势，但林德康认为，这还不是一个谈“取代”图形的时候。“图形界面仍然有着非常巨大的作用。对于人的信息的输出和输入而言，信息输入视觉是最有效的，而信息输出，语音则是信息量最高的。我们是把语音和图形交互入口结合起来，将信息输入和输出最具效率的方式相结合，我认为，这是未来的一大趋势。”

“我们选择在智能手机上率先实现，因为手机是最大的交互工具。”林德康说。而在理论上，奇点机智的技术，也可以在其他硬件终端上实现。在美国，Voice Labs曾经发布一个研究结果显示，97%的用户会在不到两周的时间里对Alexa的新功能失去兴趣。当然这并不意味着语音的失败，而是因为在通向未来的场景革命中，语音只是交互方式的其中一种。虽然语音是最简单、最自然的交互方式，但是人们80%的信息还是依靠视觉获取。从操作的简单性和获取信息的效率性而言，触控和图形，仍然在其中起着重要的角色。

在国内，目前还没有和小不点类似的产品出现。林德康表示，根据部分外传的信息显示，目前只有三星的语音助手Bixby能够实现和小不点类似的功能。但是否采用相同的方式，仍然还有待Bixby问世后才能验证。但Bixby被透露的功能，这也意味着，奇点机智选择的产品方向，得到了一定的验证，那就是，下一代语音助手应该实现的是：全面覆盖应用功能，简化操作流程，方便深入的应用体验。

“小不点”的自主学习功能

在小不点的平台上，目前已经集成了大部分常用APP。而通过自动学习功能，手机用户的每次教导学习，都会进入小不点的数据库，从而让它学会更多的功能。当用户数量越多、数据越丰富，小不点的功能，也就相应增加，同时，能够更加准确地回应用户需求。

2014年11月，奇点机智创立之初，就获得了真格基金100万美元的天使轮融资；去年3月，奇点机智又获得了襄禾资本和NEA资本500万美元的A轮融资。目前，奇点机智正准备启动下一轮融资。林德康表示，下一轮融资，奇点机智将重点将其用于技术研发，以及把小不点复制到其他手机机型上。

现在，奇点机智想做的，仍然还是通过小不点，实现语音助手的可用性，来改变用户习惯。“现在我在外购物时，已经习惯了用语音助手来进行支付。而每次，都会有人非常感兴趣地询问。”林德康笑着说。“而当我们用得越来越多的时候，就会发生很有趣的变化。比如我们安装了非常大量的应用，但我们不需要去记忆它的位置。当我们习惯了用助手来帮助我们处理，这样的改变就不可逆了。”

［本文作者杨洁，i黑马原创。如需转载请联系微信公众号（ID:VR-2014）授权，未经授权，转载必究。］