i代言 | 前高德产品副总裁马斌斌:梦想有一天,用嘴开车环游世界
2015-07-01 16:13 高德 副总 梦想

他曾是高德地图的产品副总裁,明白驾车场景下导航的各种痛点,深知只有强大的语音交互才能完美解决,却无奈种种原因产品没能继续。一个偶然的机会,他结识了专于人机对话的思必驰创始人,改造行车体验的梦想就此打开。创立carrobot,实现用嘴开车,让驾驶体验变得超乎想象,这正是马斌斌在做的。而他的“野心”还远不止于此。

我最早是在高德这边做高德地图的产品副总裁,在真正开发这个产品(高德地图)过程中,就发现在驾车场景下,不管是手机地图来做导航,还是用车机做导航,都有很多的痛点。比如说来电话了,要去接电话,来微信了,还要抽空拿起来看微信,这就给驾车带来很多的风险。有一个统计,交通事故百分之三十八,就是因为不正确的驾驶行为导致的。于是,那时我们就在想,有什么更好的办法,来解决这个问题。


还有一些情况,比如说,经过一些复杂路口的时候,这种路口本来正常是这种十字路口,但是有些路它右前方有两条路,导航播报不见得能够很准确让人知道,这两条路到底该是哪一个,多少角度,导航只会说是朝右前方行驶,所以听的时候你就会很纠结,我听的右前方,可右前方到底是哪条路。这时候没办法,只能拿起这个地图来看一眼,或者说就是自己猜着瞎走,这一走最后发现走错了,导航提示已偏离路线。有没有有什么办法,使我们在开车的时候,就可以顺便的、方便的看到这个信息,这是第一点。

还有些痛点,比如我们刚开始规划条路线,车刚启动,启动之后刚走了没几米,导航就说您已偏离路线。这时候你就很抓狂,我怎么刚启动就说我偏离路线了。为什么会这样,那是因为手机它不知道,你的车头的朝向,是否跟我规划的路线是一致的,所以它只能等你走出去几米,或者十米,它通过GPS的定位的变化,才发现已经走偏,提示你你应该怎么重新去调整路线。这种让人抓狂的事,在实际的开车过程中能不能解决掉呢?

还有一个,开车看微信,估计现在很多人都有这种习惯,开车时没办法,只能说,到红灯的时候赶快看一眼,结果呢,正在看的时候,后面车开始滴滴滴催你了,哦,绿灯到了,赶快放下来。手忙脚乱,非常不顺畅。

于是我们就在想,能不能用语言方式来控制。我跟我当时在高德的地图团队说,能不能说当我们查一个地点做导航时,整个过程用语音的方式来控制,比如帮我找一下附近的加油站。“哎,这里加油站有几个”?然后(导航)直接告诉我,我就说去第几个,然后就可以直接给我去做这个导航的动作。

高德做地图积累很深,但是在语音这方面没有这个积累,而且中间它是有个上下文的关联,它不是一次的搜索,它需要这种说,一些基于智能技术的这种,一些积累才可以,发现我们做了几个月,做不出我想要的效果,所以就先放弃了。

机缘巧合,在一次跟朋友的聚会上,算是行业里边的聚会,认识到老高,高始兴,他是思必驰的创始人,他说他们现在的技术就是做人机对话,也就是说你可以用一问一答的方式来帮你去筛选结果,整个过程中完全不用手。太好了,这正是我想要的,这就是我后来做这个产品的一个重要动机。

之后,我也去深度地了解了他们的技术,发现确实做得很好,然后他们人机对话就是说,我想打一个电话:“哎,打电话给小强。”可能通讯录里边有两个小强,它会问你是胡小强还是张小强,我说是胡小强,胡小强正好有两个电话号码,它能帮你识别出来,说你是要打给他的移动,还是联通的号码,我会说移动还是联通,我也可以说是第一个还是第二个,我还可以说一三五开头的,或者四八八五结尾的,它都能支持,这正是我想要的一个完美的语音交互方式。所以我们就决定一起做这么一个产品出来。

在决定这个产品这种形态的时候,我们做了很多一些调查。我们去看到说目前在这种车的场景里边,大家如何做这种产品的形态。大家都在用的是叫做智能车机,就是车机是以前是在这个中控台的监视器的屏幕位置,现在变成了比如装安卓系统,可以装各种应用,包括说高德地图还是百度地图,包括微信也都能装进去,但是有一个问题是,我们看这个车机的时候,尽管它做了改良,但是你视线还是要去偏离路的,而且是严重的偏离,因为它的位置是在仪表盘的下方,所以当你眼睛移到这里看的时候,你还是会忽略前方的路况,所以它不是一个安全的,信息的交互的模式。

还有后来又兴起了这种后视镜。后视镜指的是那个,前挡风玻璃中间偏上的这个位置的小后视镜,就是在车箱内部的这个,这个屏幕上面不光是用来看后方车的车距车速,还用来做一个信息的展现,等于把一个镜子面,变成了一个显示屏,它相对要比看车机这个位置,安全了好多,但是它也有它的问题,因为这个后视镜,本来是用来做看后方的车辆的车距,这么一个小屏幕,你还拿了一半左右的空间来做信息的展现,那我看到其他后车的信息,就会受到干扰,它其实是一个安全隐患,按交通法来说,可能是不合规格的一种改装,是很危险的。

我们又看到一种形式,它是日本的先锋,它做了一个这样的HUD屏,这个屏呢它是利用了这个遮阳板的位置,用一个卡子卡在这个遮阳板上,用一个狭长的透明屏来做这个展现,而且它展现的原理很有意思,它是用镜面成像的原理,图像不在这个屏幕本身,而是延伸到了车窗的外边。就像当你看镜子的时候,你不是在镜子表面,而是在镜子的里面,是一个对称的位置。

这个技术其实最早是用在战斗机,比如说那种战斗机飞行员,戴着一个头盔,他在看这个前方的天空的时候,他同时还需要去看一些飞行数据,飞行数据它是打在头盔的,这个玻璃屏上面。

现在汽车遮阳板加了这个东西之后,就没法用了,那么阳光刺眼的时候怎么办?好了,只能说你再加一个外设的一个遮阳板卡在外边,但你一旦卡在最外边的时候,又把那个透明屏给挡住了,你挡住屏之后,这个屏变得不透明,又变成了说跟看车机,和看这个后视镜同样的问题,它是不安全的。

后来我们又看到另外一个产品形态是Navdy,就是美国Navdy,它在去年的时候,推出这么一个产品视频概念,就是它是在放了一个HUD屏,跟我们这个产品是很像的,就是它这个产品是放在这个方向盘的正前方的仪表台上,看路的时候,我们这个视线的交点,大概是这样的,大概是这么一个角度,而且是前方稍微偏下看路的时候,它在你的视线角度上,可以用余光可以很清楚的看到这个信息,而且它用的也是HUD这种,镜面成像的这种原理,所以说那个信息的展现,不是在屏幕上,而是延伸到了车窗的外边,看路的时候,可以顺便的清晰地看到信息。

所以回顾到用户开车的时候痛点,痛点是什么,就是我必须要双手抓方向盘,眼睛看前方路面。如何让我在做信息交流的时候,不去破坏我这的主要操作,那我们想到的最好的模式还是在语音这一块,就是用耳朵听和用嘴巴来说,这个事情听起来很简单,其实做起来是很难的。

不知道大家有没有看过在今年的春节的时候,有一个纠正哥的视频,如果说语音识别做到这样技术,做到这样一个程度,那几乎是不可用的。国外是这样的,安吉星它背后用的语音的提供方,应该是Nuance,而Nuance又是iphone,就是Siri语音技术的提供商,我们看到说其实国外的这些厂家,做成这样,那么国内做得怎么样呢?

其实国内做的也不好。思必驰,因为我们是一个深度战略合作伙伴,而且我们是一种合伙人的关系,创始人关系,那讲了这个最基础的问题,语音识别率,语音识别率我们也对比了,国内的几家语音的服务商,包括像百度语音输入法,还有像科大讯飞,我们会发现在这种噪音环境下,他们的识别率都很差,尤其是百度就更差了。大家知道百度做了一个CarLife,车载场景下的一个人机交互系统,但是以它这样的语音识别率,CarLife几乎是一个不可用的产品。科大讯飞比它好一点,但是比起思必驰的识别的准确率,还是要差,这是一个基础的问题,这个解决不了,就谈不到说真正的语音的交互。识别都做不好嘛。

思必驰的创始人之一俞凯,是剑桥的语音博士,包括现在Siri,这边的语音的负责人,跟他们当年都是同学这样一个关系,而且他之前还是美国国防部语音这块的专家,他是上海交大语音实验室的负责人,就说这边的语音的技术积累,是很深厚的。专注于做技术,不擅长去表达去做传播,但是技术做得真的很好。一个就是体现的说他们专注于说,要做一个通用的场景的语音识别,这个可能说大家都差不多,但是做这种车载环境的呢?我们看到车载里面,其实针对于语音是一个,更强的刚需,所以思必驰它当时,基于这个车载环境,做了深度的定制研发,怎么做呢,我们要想说在噪音环境里边去,还能听清楚人声,其实要去分析人声的波长、频率这些特征,还有噪音比如说音乐声、麦克风播出的声音,跟人说话的声音,它这种频率是不一致的;还有一种风噪路噪的声音,它这种特征也不一致,当你用大量的数据的语料,把这种特征分析出来之后,就能把他跟人声分离出来,这时候为什么我能在噪音环境下,我们做得更好,因为我们把人声,可以从噪音里边分离出来,听到的就是准确的。

除了这个语音识别的问题,下一个问题是怎么能去做智能的语义识别,听清楚了是第一点,但听懂之后能不能给它一个更好的反馈,这就是一个更大的挑战,而这边正好也是我们,已经积累了一个很好的技术,人机对话的技术。我们比如说常规我们想到的语音,就是我们发一个指令说,比如说这个电视机打开关闭,这个很容易,但是如果我说给我找一个附近加油站,加油站有多个的时候你要去哪个,比如你要去中石油的还是中石化的,这时候能不能用语音方式直接来问他,说你要去附近的中石油,还是中石化的加油站,我说去中石油的,那这样的话,下一步说是否导航去那里,我说导航开始,这种过程能不能说完全语音的方式,因为我们提供的这个产品,大家也看到没有一个键盘,也没有一个触摸屏,只有一个显示屏,所以它的操控全语音操控,能不能做到,这是我们在突破的点。

在做的过程中,其实技术上能做到只是第一点,能不能让用户有一个更好的体验,又是一个好大的挑战,现在这个产品做出来之后,我们用户体验下来之后,感觉真的是很酷,而且它在开车过程中,有几个挺好的功能,比如说你开车是用全语音方式设置导航地点,设完之后开始导航,导航过程中来电话的时候,你再也不用担心说这个导航界面,被这个来电显示给盖住,而且你也不用拿起手机接电话,它直接说一句谁谁谁电话接听还是拒绝,你说接听,这时候就通过蓝牙的方式,就通过电话的信息用喇叭放出来,当然你也可以带耳机听,都可以,还有你说挂断,就可以把它挂掉,继续开车。

正在开车的时候又来了个谁谁的微信,播报还是忽略,你说播报,它就把微信内容给你读出来,你这时候完全可以不看屏幕,你就可以知道。你看着车看着路,它语音播报谁谁谁说今天下午我们一起去吃饭,地点定在什么地方好不好,然后你这时候可以说回复,然后你说好,我们就定在那个地点,我在下午7点半准时到,我们的语音识别率很好,我们语音说完之后,能转成文字发出去,而且准确率非常的高,几乎是一个字不错的能够把它发出去。

目前看它也许只是一个智能汽车,跟非智能汽车过度期间的一个过度产品,但是做好这个人车交互平台之后,我希望这个平台甚至不是通过这样一个合作的方式去体验,而是把这个系统直接装在车里边,然后在开车的时候,直接可以无缝的去使用,我们这么好的这种语音交互的能力,去做车的操控,甚至到某一天,我们通过资本运作,跟车厂做战略整合,我们去做可以语音操控的自动驾驶,这是我的梦想,在我的朋友圈子里边有一条,很多我的朋友都看过,我写的是说如果哪一天,真的实现自动驾驶了,我开辆房车去周游世界,现在如果说你要开一辆房车,去周游世界,那很痛苦,因为开车时间太长的时候,真的会很疲惫很累,那不是愉悦的体验了,但到能够用嘴去开车的时候,我只要说我要去哪里,它就会带到那个地点,期间我可以睡觉,我可以看书,我可以看东西,或者欣赏沿途的风景,我相信这是一种人生,可以更加完美的一种人生。

版权声明:本文作者i代言,文章为原创,i黑马版权所有,如需转载请联系zzyyanan授权。未经授权,转载必究。