当手机语音助手成为巨头们的下一战,这家公司要做的是让它“用起来”| AI创新50
2017-05-31 16:32 语音助手 AI 奇点机智

让语音助手效仿人的操作,把“打开APP”这个功能,通过语音实现,怎么样?

作者 | 杨洁

编辑 | 李白

李飞飞说,谷歌下一步致力的,是让AI民主化。

在它真正实现之前,智能语音助手,却率先走入了一个高潮。植入了Alexa的亚马逊Echo,成为互联网行业近几年内最重要的产品之一;谷歌的Google Home,也在今年的谷歌I/O大会上表示加入了电话功能;微软的Cortana音箱在近日亮相;而据说,苹果Siri的音箱也即将问世了。

这场语音交互的狂欢,是基于交互形态改变作出的判断。电脑的图形交互第一次改变了世界,而智能手机的多点触控,把移动互联网时代和PC时代彻底区分开来。在全新的IoT时代,新的交互方式也将诞生。当更多的设备可以联网时,触屏之外,语音就是被寄予期望的下一个核心的入口级产品。巨头们所做的事情,无非是用智能语音助手连接各种互联网服务,音箱不过是它们选择的载体之一。

智能手机,已然成为我们延伸的身体“器官”之一,手机语音助手的开发自然也不甘落后,发起对巨头们的挑战。华为在美国的mate 9中加载了Alexa,而据彭博社报道,华为也正在研发自己的语音助手。在谷歌把语音助手整合进自己的智能机之后,三星宣布收购Viv Labs,开发自己的语音助手Bixby。

然而,如今大多数智能手机中的智能语音助手,仍然处于一个尴尬的位置。即使广为所知的Siri,也难免成为日常被“调戏”的对象,而其作为“助理”一面的功能,却并未得到重点体现。从而它们也成为手机中,一个颇有些“鸡肋”的存在。

而若要实现语音助手作为交互形态的下一代入口,进而建立平台级生态,也必须要先解决一个问题:让语音助手,能够真正应用起来。

这也是奇点机智(Naturali)在考虑的问题。今年4月,乐视超级手机面世,其中的智能语音助手,就是奇点机智所开发的“小不点”,它要解决的,就是智能手机中语音助手的实用性问题——能够深入应用底层,通过语音指令实现对手机内APP应用的操控。

为什么Siri用不起来?

奇点机智的两位创始人,邬霄云是纽约州立大学计算机博士,在谷歌研究院工作8年,主攻大规模机器学习和自然语言理解。林德康是加拿大Alberta大学计算机教授,之前也曾在Google担任高级管理科学家,主要研究方向是自然语言处理,也是华人圈少数几个国际计算语言学会ACL Fellow之一。

奇点机智联合创始人 林德康教授

在离开谷歌的前几年,林德康一直在主攻谷歌搜索的自动问答项目,针对用户的问题,通过关键词匹配,将搜索结果中最优答案摘录整合提供给用户。而在研发过程中,在语义理解领域的积累之外,他们也注意到,语音识别技术在过去几年中经历了巨大的飞跃,已经逐渐走向成熟,识别的准确度大大提升。一个交互形态改变的时代即将来临。“语音识别已经变得太容易了——技术走到了这个节点,我们认为,最好的创业时机来临了。”他告诉黑智。

奇点机智给自己设立的一个很简单的目标就是:链接人类对手机的需求和手机应用里的各项功能。小不点就是奇点机智为安卓生态打造的智能语音应用助手,乐视则是小不点的第一个企业客户。

“目前智能手机中的语音助手为什么用不起来?因为它能做的事情还太少。”林德康说。例如Siri,它固然能够帮助用户设置闹钟、打开程序、打电话之类,但是这都是苹果自带的APP,它仍然不能调用第三方APP。如果你是要询问问题比如“中国的首都是哪里”,它只会推送搜索引擎中的网页供你选择,你需要发个红包,它最多为你打开微信。

“它需要集成第三方APP的API才能调用,但这想要推广,是个非常缓慢的过程。”林德康告诉黑智,“自从苹果提出可以支持连接第三方应用到现在,仍然数量还很少。功能的限制,是语音助手没有得到普及最主要的原因。”

而如果语音助手可以不必调用第三方APP的API,效仿“人的操作”,把“打开APP”这个功能,通过语音实现呢?“小不点”就利用了Android系统中的Accessibility功能,来解决语音助手的实用性问题。

对于那些由于视力、听力或其他原因,不能方便使用手机的用户,Android提供了Accessibility功能和服务帮助他们操作设备,包括文字转语音、触觉反馈、手势操作、轨迹球和手柄操作。

而小不点,就可以直接利用Accessibility提供的模拟用户点击功能,在用户发出指令后,通过读屏,进行虚拟点击操作,不需要用户亲自动手,也无需调用第三方APP的API,实现自动点击。例如,当你说完“给某某发10元红包”之后,小不点会打开微信,跳转入对该联系人发红包界面,填好金额,等待用户输入密码并发送。但所有涉及到金融支付的指令,“小不点”都会自动停留到支付界面。

“小不点”发红包的过程

通过这种方式,小不点可以自由操控用户手机上的大部分常用APP。而一旦遇到小不点目前还没有实现的APP操作,其中的智能学习功能则可以发挥作用。当用户激活学习功能后,只需按照平时的步骤操作,小不点会自动记录,用户日后再次下达指令后,自动完成所有操作和跳转。

这是和Siri、度秘等语音助手完全不同的模式。“和第三方APP进行谈判,把它们的功能集成进来,对开发者们而言,也可能会引发他们的抵触。”林德康说,“而现在我们并不需要调用他们的API,不会触及他们的用户和功能。而对我们而言,也会节省开发的难度和成本。”

语音+图形交互方式相结合

自动学习、语音识别和语义理解,是小不点背后的主要技术组成部分,均为奇点机智自主研发。林德康表示,采用自己的语音识别技术,可以留存具备更多可能性的信息,及时进行功能优化,同时,也为语音系统训练积累更多的数据。而由于两位创始人都拥有在谷歌专攻自然语言理解方向的背景,奇点机智在语义理解上,具备更加明显的技术优势。它能够根据关键词的表达进行推理,了解用户的真实意图。

在黑智对加载了小不点语音助手的手机体验中,它不仅可以完成之前提到的发微信红包命令,当在告诉它打开视频播放某集电视剧时,它能够自动打开视频APP,完成页面跳转;在打车时,说出出发地和目的地,它会自动打开滴滴等打车APP并完成操作;告诉它发送位置给某人,它会调用微信通讯录中该联系人信息,并发送地图位置信息。据林德康透露,目前,小不点已经开始进行多轮对话的训练。

“这种对话是存在边界的。”林德康说。相较聊天机器人的开放域对话系统,小不点的这种语音助手开发无疑难度是相对降低的,从而也能够更加准确地理解用户意图,并达成实用性。

或许,小不点并不意味着极高的技术门槛,但是,其中,却蕴含着奇点机智对未来交互方式的思考。而尽管语音交互将成为下一代流量入口,似乎已经是不可改变的趋势,但林德康认为,这还不是一个谈“取代”图形的时候。“图形界面仍然有着非常巨大的作用。对于人的信息的输出和输入而言,信息输入视觉是最有效的,而信息输出,语音则是信息量最高的。我们是把语音和图形交互入口结合起来,将信息输入和输出最具效率的方式相结合,我认为,这是未来的一大趋势。”

“我们选择在智能手机上率先实现,因为手机是最大的交互工具。”林德康说。而在理论上,奇点机智的技术,也可以在其他硬件终端上实现。在美国,Voice Labs曾经发布一个研究结果显示,97%的用户会在不到两周的时间里对Alexa的新功能失去兴趣。当然这并不意味着语音的失败,而是因为在通向未来的场景革命中,语音只是交互方式的其中一种。虽然语音是最简单、最自然的交互方式,但是人们80%的信息还是依靠视觉获取。从操作的简单性和获取信息的效率性而言,触控和图形,仍然在其中起着重要的角色。

在国内,目前还没有和小不点类似的产品出现。林德康表示,根据部分外传的信息显示,目前只有三星的语音助手Bixby能够实现和小不点类似的功能。但是否采用相同的方式,仍然还有待Bixby问世后才能验证。但Bixby被透露的功能,这也意味着,奇点机智选择的产品方向,得到了一定的验证,那就是,下一代语音助手应该实现的是:全面覆盖应用功能,简化操作流程,方便深入的应用体验。

“小不点”的自主学习功能

在小不点的平台上,目前已经集成了大部分常用APP。而通过自动学习功能,手机用户的每次教导学习,都会进入小不点的数据库,从而让它学会更多的功能。当用户数量越多、数据越丰富,小不点的功能,也就相应增加,同时,能够更加准确地回应用户需求。

2014年11月,奇点机智创立之初,就获得了真格基金100万美元的天使轮融资;去年3月,奇点机智又获得了襄禾资本和NEA资本500万美元的A轮融资。目前,奇点机智正准备启动下一轮融资。林德康表示,下一轮融资,奇点机智将重点将其用于技术研发,以及把小不点复制到其他手机机型上。

现在,奇点机智想做的,仍然还是通过小不点,实现语音助手的可用性,来改变用户习惯。“现在我在外购物时,已经习惯了用语音助手来进行支付。而每次,都会有人非常感兴趣地询问。”林德康笑着说。“而当我们用得越来越多的时候,就会发生很有趣的变化。比如我们安装了非常大量的应用,但我们不需要去记忆它的位置。当我们习惯了用助手来帮助我们处理,这样的改变就不可逆了。”