Rokid发布第二代智能语音机器人,这次它的远景目标是“让AI无处不在”
2017-06-13 10:11 rokid 智能音箱

最好的预测未来的方式就是去创造未来。

智能语音设备终端已经成为科技巨头竞争的新战场。日前苹果的HomePod刷遍了朋友圈,在此之前,微软联手哈曼卡顿推出了基于Cortana语音助理的音箱invoke,与亚马逊Echo和Google Home,展开了同台竞争。

国内的智能语音交互终端,也早已加入了这场角逐。

6月8日,Rokid在北京宣布,其第二代智能语音机器人“若琪•月石”全渠道上市。同时,Rokid推出了个性化声纹识别。“若琪”能够识别20个人以内的声纹,它会知道当前在下达指令的是“谁”,从而保证使用的安全性和私密性。借助远场识音算法,它还能在嘈杂环境下准确分辨出声音来源,识别距离最远可达10米。在记住了每个人之后,“若琪”还会记住你的使用习惯进行个性化推荐。

“我们的目标是最终打造‘无处不在的AI’。”Rokid创始人Misa说。对于媒体而言,Misa相对而言是个极其低调的创始人,这也是他少数出来面对媒体的活动之一。而这次,他除了谈到若琪的技术亮点之外,更是公开了rokid在未来的研发计划。

也许,一个智能音箱的风口,真的要来到了。

智能语音机器人“若琪•月石”

亚马逊曾经表示,智能音箱,可以被看作是语音微交互界面的新型计算设备。Gartner也曾预测,到2018年,有30%的人机交互都将通过自然语言完成。智能语音交互的家用终端,以其下一代交互的技术入口,以及其覆盖了硬件和内容等生态系统的广度,成为各大巨头的必争之地。而对于创业公司而言,若想在其中立足,竞争难度也是巨大的。

相比Google Home和Amazon Echo以及市面上大部分采用第三方语音技术的同类产品,据Rokid北京A-Lab负责人高鹏介绍,Rokid的核心AI语音交互技术均为自主研发。对此,Misa说:“Rokid并不反对用别人的技术,我们也有一些跟其他人合作的东西,但前提是它必须满足我们对产品的定义。”据Misa介绍,Rokid目前有两个实验室,北京的A-lab主要负责AI算法,在美国的R-lab主要负责计算机视觉以及机器人方面的研发。在Rokid团队中有诸多来自中科院自动化所多年从事语音技术研究的博士,具备足够的技术积累。

Rokid对自身产品的定位也在目前上市的“若琪•月石”中得到了体现。它的能力包括音乐播放、智能家电控制、讲故事、播报新闻、日程提醒、天气预报、实时翻译、计算等。但和Echo以及Google Home相比,Rokid产品负责人向文杰表示,他们更希望,若琪是一款“带有性格”的产品。同时,Misa也表示,若琪和用户之间,正在建立起自己的“情感”。

“声纹识别”是若琪本次产品最值得关注的亮点之一。在鼠标、触屏之后,语音交互被认为是下一代新的交互方式,而声纹识别将会提供给机器“认识你”的功能。若琪可以记录几十个家庭成员的声音并进行识别,只要和它说过话,下次打开“若琪”,它都能认出是谁,并且还能准确识别说话的人是在哪个方向。声纹识别的功能,让“若琪”可以在多人场景下选择主人的指令进行完成。“若琪”会知道当前在下达指令的是你而不是别人,因此安全性和私密性要比同类产品高。

同时,该功能也可让“若琪”完成对家庭各成员的精准服务。认识了你之后,作为具备学习功能的智能机器人,“若琪”还会在日常接触中逐步记住你的喜好习惯并形成后台数据收集整理,在之后的使用中,它会针对性地向你推送内容以及个性化服务。Misa表示,声纹识别成果近期也将升级给所有若琪用户。

借助远场识音算法,“若琪”还能在嘈杂环境下准确分辨出声音来源,识别距离最远可达10米,常见的家庭住宅都在这个范围之内。

对于智能音箱而言,之所以吸引了巨头们的目光,主要还在于它开启了更广阔的智能家居生态市场的大门。智能语音助手可以控制家居设备,成为各种家用设备的控制中枢入口;以及获取更多用户数据,搭载不同的内容、电商、生活类应用,成为新的应用平台。

Misa表示,若琪现在已联通绝大部分国内主流厂商的上百种智能家电设备,而且针对目前IOT设备品牌众多,接口不一的情况,Rokid可以用一套API接口直接打通,实现更多智能家居品牌的跨厂商兼容。据透露,Rokid目前已经跟LifeSmart、欧瑞博、broadlink、小米等达成了合作协议。

同时,除了家电外,Rokid正在打通与“饿了么”、“滴滴出行”等服务平台的连接,未来“若琪”将能提供多元化的服务,比如处理叫外卖、叫车等日常琐事。

而另外值得一提的是,Rokid在音乐内容上下的功夫。据介绍,“若琪•月石”上拥有正版授权的320K品质、6百万首音乐和其他音频内容。“全部由我们付费,用户收听。”Misa说。

“若琪•月石”现在已经在天猫、京东等线上商城、全国重点省份城市的500多家门店以及国内潮品、机场高铁等线下店面全渠道上线,定价为1399元人民币。

但在Misa看来,消费级AI产品,在三年之内,还将有一个更大的升级:从感知到认知,从单设备到多设备互动,以及AI大脑的云端化。届时,一个“无处不在的AI”,将是Rokid要去打造的未来。

Rokid创始人Misa

以下为Misa的分享,经黑智编辑整理:

Rokid是一家AI公司,我们主要做两件事情:AI的大脑,以及AI的交互。现在关于AI的话题已经非常多了,但实际上,AI能做的事情还没那么多。它现在主要能做的,第一是帮你做决策,第二则是提升你的各方面体验。在今天,AI还是偏工具性的。

Rokid成立已经三年多了,差不多同时候,亚马逊推出了Echo,让市场开始对语音交互的信心增强了。刚才高鹏也讲到了,我们对语音识别不陌生,但是在家庭场景里面,远场,有混响,我们能不能做到很好的体验?很多人心里没底,包括我们也探索了很长时间。我们在第一代产品推出的时候,其实也是要给大家一个信心,我们自己也发现,用户对这个产品接受度开始变得很高。那么,三年后的今天,Rokid又会怎么去思考它?

AI的全面升级

1、AI开始从感知到认知的全面升级:个体认知——环境认知——事务认知或意图认知

我能听得到你的声音,同时知道你在讲什么,这属于感知。认知是什么概念呢?比如声纹识别,用户的体验就是当你家里不同的人跟若琪在讲话的时候,她知道这个人是谁。我的结论是,语音技术里面的个体认知就像智能手机里的触屏一样,将会引发产业的大革命。

第二个是环境的认知,一个AI的硬件或者一个产品,它可以对自己的环境作出认知:我现在是在客厅还是厨房、车上或者在什么地方。第三是对事务的认知,有的人把它叫意图的认知,即当我和机器沟通或者交互的时候,机器或者智能大概能知道你要干什么,比如我们表达一个任务,说我要从杭州去北京,非常简单的一句话,涵盖了多少东西,你可能是要买机票、订酒店、叫车、预定餐厅,可能要会见朋友……这个叫事务的认知,未来不久也会发生。

2、未来AI会全面上云端

AI的全面云端化也是包括几个方面。首先,所有大家共享的知识都在云端;第二,个性知识也会上云端;第三是任务的状态会上云端。什么叫任务的状态?我这个机器做了一半的事,它会在云端记住我做到哪了。举个例子,我在我家的若琪月石上听了一个故事,长篇故事,大概听到二十分钟,下次回来的时候仍然继续听。

3、单设备到多设备互动:多机协作——多维交互——多屏互动——任务迁移

未来家里面肯定不会只有一个AI的设备,他会面临第一个问题,多机协作。多机协作之后,任务状态上云端的需求就产生了。

第二个需求是多维互动,我们现在在用语音跟这个产品互动,未来不仅仅是语音,未来有摄像头,可以用手势,甚至未来有更多的传感器加入到跟人的交互里面去,产生多维的一个交互。有很多人会说,AI的产品发展未来会是什么样,要不要在Rokid上加一块屏幕。我的想法是,我们不认为现在的家庭里面还需要另外一块屏幕,更多的作用是让你家里已有的这些屏互动起来。多屏互动将会是一个趋势。

任务的迁移,举个简单的例子,两台Rokid之间协作,当我在家里听音乐听到一半要去上班了,打开我的车门,关上车启动车之后,我叫若琪继续播放。不仅仅是多个设备之间需要做状态的迁移跟互动,包括这辆车我进去的时候,它要知道我是谁。所以我们之前提到个性认知上云端,状态上云端,就会有一个质的变化,最后直接导致的是场景的迁移,会导致“无处不在个性的AI”。

无处不在的AI,它不再被拘泥在某一个非常具体的形象里面。在不久的将来,我们也已经准备好了,会发布一款新产品,可以让家里完成无处不在的若琪。有趣的就在于那个设备本身它也可以独立工作。我们这个计划就叫“若琪梵星计划”。同样我们计划会把若琪梵星计划开放给我们的合作者,包括汽车厂,包括电冰箱厂,包括电视厂,未来如果有越来越多的人采用这个方案以后,你真的就可以在任何地方唤醒你的若琪,然后跟她进行对话,完成你交给她的任务,这是我们未来的一个思考。

“有温度”的机器

有很多技术的突破,一个技术的突破,只有当它融入到产品,融入到场景,并且把这些整个链条都连通以后,才有真正的价值。

我过去是不在家听音乐的,中国人听音乐,很少有家庭音乐的概念,基本都是耳机。即使我家里有音箱,我也是在没人的时候听。如果要问我智能音箱这个市场有多大,国内的文化和美国是巨大的差别,真的不是那么大的市场。但为什么我们要做?我给大家讲过了,它只是我们环节里面的一部分,是不可缺席的一个环节,但我们要把它做到最好,让一个这样的产品慢慢被大家所接受。当我们的场景音乐出来的时候,真的有原来不听音乐的人在听音乐,因为太方便了。

我们对若琪这个产品的定义,我们最后希望它是伴侣、助手,我对它的定义是年轻的知性的女生,不是耍嗲的、让人缺少信任感。我对我们技术团队、研发团队说,希望我们合成的效果是你听到这种声音之后,觉得这个女生很值得信任,是一个知性的年轻女生的声音。我告诉团队最重要的并不是一个产品长什么样,而是她内在的气质和性格,我们在很多细节上都给产品注入她自己的性格。产品的具体功能定义完成后,我们团队问的最多的就是,这个场景的体验会给用户带来什么样的感受。月石产品设计一开始就希望用户能感受到温度和亲切。

若琪跟其他产品,你要问我区别在哪里?我认为就在这里,Rokid是人文主义的,是要把冷冰冰的机器关起来的。

但我们怎么去预测这个未来?就是我们自己去把它做出来。最好的预测未来的方式就是去创造未来。