当天猫精灵生出“双眼”,智能音箱离家用“机器人”还有多远?
2018-03-23 22:54 阿里 天猫精灵 智能音箱

家居硬件,正向着真正的“家庭人工智能助手”演化。

文 | 黑君 编辑 | 黑智

去年开始的智能音箱大战,步入了新的阶段。

3月22日,阿里巴巴人工智能实验室在北京召开了2018春季发布会,推出了天猫精灵曲奇版(299元),以及XHolder(49元)、天猫路由(199元)、天猫魔屏S1投影电视(4699元)等多款智能硬件产品,继续对家庭智能生活场景的布局。

然而,这都不是阿里AI Labs的重点。这次阿里真正加力推出的,是阿里的人机交互系统AliGenie2.0。与上一代相比,在语音交互的基础上,AliGenie2.0引入了视觉能力,能够进行视觉认知、多模态交互、情景感知等。

AliGenie2.0的视觉能力能提供什么样的交互体验?阿里AI Labs将其首先在天猫精灵X1上落地,推出了“精灵火眼”功能。

在此之前,市面上已经有了亚马逊Echo Show带触屏音箱,以及国内的小鱼在家等家用智能语音设备,但是天猫精灵的“火眼”在其中,还是显得特立独行。阿里的目标,显然不是国内智能音箱硬件的一时一地之争,而是要将重心放在AliGenie2.0的软件平台上,将智能家居的生态链,进一步完善下去。

在海外,亚马逊、苹果、谷歌的智能家庭生态争霸已经日趋白热化,而在国内,这场大战也在酝酿之中。

当天猫精灵生出“双眼”,智能音箱离家用“机器人”还有多远?

“精灵火眼”能够看到什么?

“带屏”音箱,之前已经成为业界对今年智能硬件大战的预测。3月26日,百度的首款智能视频音箱“小度在家”也即将面世。在阿里这场发布会之前,也早已有了类似猜测。

但是,阿里AliGenie 2.0在天猫精灵X1上实现的落地方式,还是显得与众不同。

通过一个支架、一部手机,以及天猫精灵的 APP “精灵火眼”功能,天猫精灵可以加上“屏幕”,具备视觉认知能力。

阿里AI Labs推出了一个XHolder控制板(当然,你也可以自己就地取材一个支架),将手机放置在支架上,检测到设备,进入视觉配置模式、链接成功后,一双很萌的大眼睛就显示在手机屏幕上,它可以通过手机摄像头,捕捉图像,拥有自己的“双眼”。

AI Labs负责人浅雪表示,AliGenie 2.0的视觉认知能力包括图像识别、人脸识别、物体检测;AliGenie 2.0的多模态交互能力可以通过对语音、图像、触摸等多种交互形态的融合,模拟人与人之间的交流方式;AliGenie2.0的情景感知能力,则基于你所在的上下文、对话场景自主学习,深刻理解情景需求。在视觉能力中,提供了图像识别、人脸识别、物体检测等功能。

精灵火眼的视觉认知能力,将主要面向儿童和老年人用户群。精灵火眼通过图像识别,结合智能语音互动、声音朗读,可以帮助儿童读书、识字。在现场,当它“看到”一张识字卡片,或者一本儿童绘本,可以为孩子读取、讲解与讲故事。据介绍,阿里已经联合了中国少年儿童出版社、安徽少儿出版社等国内顶尖的出版社,选取了适合3岁到8岁儿童的117套图书,包含了天猫上面销量最高的绘本、获奖作品,如《小猪佩奇》、《海底小纵队》等儿童图书。

针对老年人场景,天猫精灵开发了识别药盒的功能,与阿里健康合作,能够识别4万种药盒,覆盖中国家庭常用药,只要用精灵火眼扫一扫药盒,就能用语音播报药名、功效、过期日等信息。

在阿里AI Labs的计划里,未来万物识别、人脸识别等功能,也将引入进来。

当然,天猫精灵还具有表情系统,基于3D虚拟形象,提供自然交互的表情拟态动画,目前包括近20多种拟态动画,触摸虚拟形象的不同部位,能够产生反馈和互动。

智能家居生态野心

这是和市面上的带触屏的音箱,并不相同的产品形态。阿里强调,这不是屏幕的延展,而是一种“视觉认知”能力的加载。通过视觉去认知和了解周围的世界,并且结合行动能力,给用户带来帮助。在这种方式下,用户不需要增加硬件成本,就可以直观体验“视觉”的能力。

要做智能硬件生态,必然是硬件、软件和服务的结合。在交互方式变革的时代,对于巨头们而言,研发所谓智能音箱,也是要建立新的生态平台,承载原有的内容和服务,拓展新的市场。

亚马逊Echo的成功,也是围绕自己的商业生态进行的,Echo在应用上,则可以和亚马逊其他产品和服务相结合,比如,接入亚马逊电商业务以及Kindle和Amazon Music等。基于亚马逊本身产品的频繁的应用场景,增强了Echo用户的黏性,使其成为家庭设备的控制中心。Alexa的开放态度,带来了更多第三方厂商的合作。

同样,阿里的AliGenie同样是走开放平台路线,和第三方服务对接。在这个平台上,阿里更强调的,是产品未来所能提供的服务能力。技术还亟待提高,应用场景还需要更多挖掘,用户使用习惯更是需要培养,如何让AI技术和产品在更多的场景里落地,打造更大的生态联盟?自然是吸引开发者们,提供更多的可能。

因此,去年随着天猫精灵X1的面世,AliGenie1.0开发者平台对外开放。去年双十一,天猫精灵的券后价99元惊掉了很多人的下巴,随之而来的,是天猫精灵和智能音箱概念的一次大普及。浅雪表示,天猫精灵在过去半年多的时间里,销量已经突破了200万台;目前,已经有6500名开发者,围绕着天猫精灵做新应用的开发。“看了用户这么多意想不到的需求,我觉得智能语音市场的未来空间,以及新进的空间还非常大。”

而现在,在AliGenie2.0上,阿里AI Labs可以进行更大的图像数据收集。而通过此,阿里可以为自己的智能家居生态,搭建更有竞争力的“下一代人机交互”平台。

阿里AI Labs的使命,就是“探索创新的人机交互方式”,天猫精灵只是一个开端。“在推出这款产品的时候我们说过,我们选择自己做硬件是为了把产业链完整的走一遍,才能知道真正的市场需求。”而阿里表示,家庭智联网不只是遥控器,“硬件只是用来展示系统的载体,而不是我们的目的”。

天猫精灵曲奇版

这次阿里AI Labs推出天猫精灵曲奇版、天猫魔屏以及路由器,这三款设备,刚好是人机交互的“输入设备”,“链接设备”以及人机交互的“输出设备”。输入/连接/输出的智能化,这是阿里AI Labs对智联网的三个关键组成部分的理解。

同时,无论是曲奇版本还是魔屏,里面也都加载了AliGenie系统。

一直以来,阿里也正在迅速扩大自己的合作伙伴范围和智能家居设备商阵营。截止目前,升级AliGenie2.0系统的天猫精灵智能音箱可连接72个家电品牌、38种品类、8个物联平台的4500万家用电器产品,同时也通过智能插座等辅助技术手段帮助很多老家电升级智能化体验。

未来是家用机器人?

“下一代人机交互”为什么会有屏幕或视觉?一个很简单的原因是,现在还远不是语音取代“图形”的时候。

在通向未来的场景革命中,语音只是交互方式的其中一种。虽然语音是最简单、最自然的交互方式,但是人们80%的信息还是依靠视觉获取。林德康教授曾经对黑智说过:“图形界面仍然有着非常巨大的作用。对于人的信息的输出和输入而言,信息输入视觉是最有效的,而信息输出,语音则是信息量最高的。”

还有更直白的一点是,现在的语音交互其实根本就不成熟。仅就语音识别这点来看,就还有很多问题需要解决,诸如远场识别、对噪声等干扰音的处理等等,这是现在大行其道的深度学习所无法解决的问题,更不要提语义理解了。

Echo Show为自己加上了触屏。天猫精灵加上了“视觉”。但在黑君看来,更有趣的一点是,我们谈到“人机交互”,在家居智能硬件里,“服务机器人”和真正的“AI助手”无疑是最具有吸引力产品,但是由于造价,以及在技术上的限制、服务场景的缺失等方面的限制,这个领域迟迟没有发展起来,反而是智能音箱形态的产品,得到了爆发。而在音箱类产品的基础上,加上“视觉”和“屏”,正是这类家居硬件,向着真正的“家庭人工智能助手”演化,所迈出的第一步。

而接下来的,说不定,将是它们走向“移动”。