i代言 | 前高德产品副总裁马斌斌：梦想有一天，用嘴开车环游世界_创业家

i代言 | 前高德产品副总裁马斌斌：梦想有一天，用嘴开车环游世界

2015-07-01 16:13 高德副总梦想

他曾是高德地图的产品副总裁，明白驾车场景下导航的各种痛点，深知只有强大的语音交互才能完美解决，却无奈种种原因产品没能继续。一个偶然的机会，他结识了专于人机对话的思必驰创始人，改造行车体验的梦想就此打开。创立carrobot，实现用嘴开车，让驾驶体验变得超乎想象，这正是马斌斌在做的。而他的“野心”还远不止于此。

我最早是在高德这边做高德地图的产品副总裁，在真正开发这个产品（高德地图）过程中，就发现在驾车场景下，不管是手机地图来做导航，还是用车机做导航，都有很多的痛点。比如说来电话了，要去接电话，来微信了，还要抽空拿起来看微信，这就给驾车带来很多的风险。有一个统计，交通事故百分之三十八，就是因为不正确的驾驶行为导致的。于是，那时我们就在想，有什么更好的办法，来解决这个问题。

还有一些情况，比如说，经过一些复杂路口的时候，这种路口本来正常是这种十字路口，但是有些路它右前方有两条路，导航播报不见得能够很准确让人知道，这两条路到底该是哪一个，多少角度，导航只会说是朝右前方行驶，所以听的时候你就会很纠结，我听的右前方，可右前方到底是哪条路。这时候没办法，只能拿起这个地图来看一眼，或者说就是自己猜着瞎走，这一走最后发现走错了，导航提示已偏离路线。有没有有什么办法，使我们在开车的时候，就可以顺便的、方便的看到这个信息，这是第一点。

还有些痛点，比如我们刚开始规划条路线，车刚启动，启动之后刚走了没几米，导航就说您已偏离路线。这时候你就很抓狂，我怎么刚启动就说我偏离路线了。为什么会这样，那是因为手机它不知道，你的车头的朝向，是否跟我规划的路线是一致的，所以它只能等你走出去几米，或者十米，它通过GPS的定位的变化，才发现已经走偏，提示你你应该怎么重新去调整路线。这种让人抓狂的事，在实际的开车过程中能不能解决掉呢？

还有一个，开车看微信，估计现在很多人都有这种习惯，开车时没办法，只能说，到红灯的时候赶快看一眼，结果呢，正在看的时候，后面车开始滴滴滴催你了，哦，绿灯到了，赶快放下来。手忙脚乱，非常不顺畅。

于是我们就在想，能不能用语言方式来控制。我跟我当时在高德的地图团队说，能不能说当我们查一个地点做导航时，整个过程用语音的方式来控制，比如帮我找一下附近的加油站。“哎，这里加油站有几个”？然后（导航）直接告诉我，我就说去第几个，然后就可以直接给我去做这个导航的动作。

高德做地图积累很深，但是在语音这方面没有这个积累，而且中间它是有个上下文的关联，它不是一次的搜索，它需要这种说，一些基于智能技术的这种，一些积累才可以，发现我们做了几个月，做不出我想要的效果，所以就先放弃了。

机缘巧合，在一次跟朋友的聚会上，算是行业里边的聚会，认识到老高，高始兴，他是思必驰的创始人，他说他们现在的技术就是做人机对话，也就是说你可以用一问一答的方式来帮你去筛选结果，整个过程中完全不用手。太好了，这正是我想要的，这就是我后来做这个产品的一个重要动机。

之后，我也去深度地了解了他们的技术，发现确实做得很好，然后他们人机对话就是说，我想打一个电话：“哎，打电话给小强。”可能通讯录里边有两个小强，它会问你是胡小强还是张小强，我说是胡小强，胡小强正好有两个电话号码，它能帮你识别出来，说你是要打给他的移动，还是联通的号码，我会说移动还是联通，我也可以说是第一个还是第二个，我还可以说一三五开头的，或者四八八五结尾的，它都能支持，这正是我想要的一个完美的语音交互方式。所以我们就决定一起做这么一个产品出来。

在决定这个产品这种形态的时候，我们做了很多一些调查。我们去看到说目前在这种车的场景里边，大家如何做这种产品的形态。大家都在用的是叫做智能车机，就是车机是以前是在这个中控台的监视器的屏幕位置，现在变成了比如装安卓系统，可以装各种应用，包括说高德地图还是百度地图，包括微信也都能装进去，但是有一个问题是，我们看这个车机的时候，尽管它做了改良，但是你视线还是要去偏离路的，而且是严重的偏离，因为它的位置是在仪表盘的下方，所以当你眼睛移到这里看的时候，你还是会忽略前方的路况，所以它不是一个安全的，信息的交互的模式。

还有后来又兴起了这种后视镜。后视镜指的是那个，前挡风玻璃中间偏上的这个位置的小后视镜，就是在车箱内部的这个，这个屏幕上面不光是用来看后方车的车距车速，还用来做一个信息的展现，等于把一个镜子面，变成了一个显示屏，它相对要比看车机这个位置，安全了好多，但是它也有它的问题，因为这个后视镜，本来是用来做看后方的车辆的车距，这么一个小屏幕，你还拿了一半左右的空间来做信息的展现，那我看到其他后车的信息，就会受到干扰，它其实是一个安全隐患，按交通法来说，可能是不合规格的一种改装，是很危险的。

我们又看到一种形式，它是日本的先锋，它做了一个这样的HUD屏，这个屏呢它是利用了这个遮阳板的位置，用一个卡子卡在这个遮阳板上，用一个狭长的透明屏来做这个展现，而且它展现的原理很有意思，它是用镜面成像的原理，图像不在这个屏幕本身，而是延伸到了车窗的外边。就像当你看镜子的时候，你不是在镜子表面，而是在镜子的里面，是一个对称的位置。

这个技术其实最早是用在战斗机，比如说那种战斗机飞行员，戴着一个头盔，他在看这个前方的天空的时候，他同时还需要去看一些飞行数据，飞行数据它是打在头盔的，这个玻璃屏上面。

现在汽车遮阳板加了这个东西之后，就没法用了，那么阳光刺眼的时候怎么办？好了，只能说你再加一个外设的一个遮阳板卡在外边，但你一旦卡在最外边的时候，又把那个透明屏给挡住了，你挡住屏之后，这个屏变得不透明，又变成了说跟看车机，和看这个后视镜同样的问题，它是不安全的。

后来我们又看到另外一个产品形态是Navdy，就是美国Navdy，它在去年的时候，推出这么一个产品视频概念，就是它是在放了一个HUD屏，跟我们这个产品是很像的，就是它这个产品是放在这个方向盘的正前方的仪表台上，看路的时候，我们这个视线的交点，大概是这样的，大概是这么一个角度，而且是前方稍微偏下看路的时候，它在你的视线角度上，可以用余光可以很清楚的看到这个信息，而且它用的也是HUD这种，镜面成像的这种原理，所以说那个信息的展现，不是在屏幕上，而是延伸到了车窗的外边，看路的时候，可以顺便的清晰地看到信息。

所以回顾到用户开车的时候痛点，痛点是什么，就是我必须要双手抓方向盘，眼睛看前方路面。如何让我在做信息交流的时候，不去破坏我这的主要操作，那我们想到的最好的模式还是在语音这一块，就是用耳朵听和用嘴巴来说，这个事情听起来很简单，其实做起来是很难的。

不知道大家有没有看过在今年的春节的时候，有一个纠正哥的视频，如果说语音识别做到这样技术，做到这样一个程度，那几乎是不可用的。国外是这样的，安吉星它背后用的语音的提供方，应该是Nuance，而Nuance又是iphone，就是Siri语音技术的提供商，我们看到说其实国外的这些厂家，做成这样，那么国内做得怎么样呢？

其实国内做的也不好。思必驰，因为我们是一个深度战略合作伙伴，而且我们是一种合伙人的关系，创始人关系，那讲了这个最基础的问题，语音识别率，语音识别率我们也对比了，国内的几家语音的服务商，包括像百度语音输入法，还有像科大讯飞，我们会发现在这种噪音环境下，他们的识别率都很差，尤其是百度就更差了。大家知道百度做了一个CarLife，车载场景下的一个人机交互系统，但是以它这样的语音识别率，CarLife几乎是一个不可用的产品。科大讯飞比它好一点，但是比起思必驰的识别的准确率，还是要差，这是一个基础的问题，这个解决不了，就谈不到说真正的语音的交互。识别都做不好嘛。

思必驰的创始人之一俞凯，是剑桥的语音博士，包括现在Siri，这边的语音的负责人，跟他们当年都是同学这样一个关系，而且他之前还是美国国防部语音这块的专家，他是上海交大语音实验室的负责人，就说这边的语音的技术积累，是很深厚的。专注于做技术，不擅长去表达去做传播，但是技术做得真的很好。一个就是体现的说他们专注于说，要做一个通用的场景的语音识别，这个可能说大家都差不多，但是做这种车载环境的呢？我们看到车载里面，其实针对于语音是一个，更强的刚需，所以思必驰它当时，基于这个车载环境，做了深度的定制研发，怎么做呢，我们要想说在噪音环境里边去，还能听清楚人声，其实要去分析人声的波长、频率这些特征，还有噪音比如说音乐声、麦克风播出的声音，跟人说话的声音，它这种频率是不一致的；还有一种风噪路噪的声音，它这种特征也不一致，当你用大量的数据的语料，把这种特征分析出来之后，就能把他跟人声分离出来，这时候为什么我能在噪音环境下，我们做得更好，因为我们把人声，可以从噪音里边分离出来，听到的就是准确的。

除了这个语音识别的问题，下一个问题是怎么能去做智能的语义识别，听清楚了是第一点，但听懂之后能不能给它一个更好的反馈，这就是一个更大的挑战，而这边正好也是我们，已经积累了一个很好的技术，人机对话的技术。我们比如说常规我们想到的语音，就是我们发一个指令说，比如说这个电视机打开关闭，这个很容易，但是如果我说给我找一个附近加油站，加油站有多个的时候你要去哪个，比如你要去中石油的还是中石化的，这时候能不能用语音方式直接来问他，说你要去附近的中石油，还是中石化的加油站，我说去中石油的，那这样的话，下一步说是否导航去那里，我说导航开始，这种过程能不能说完全语音的方式，因为我们提供的这个产品，大家也看到没有一个键盘，也没有一个触摸屏，只有一个显示屏，所以它的操控全语音操控，能不能做到，这是我们在突破的点。

在做的过程中，其实技术上能做到只是第一点，能不能让用户有一个更好的体验，又是一个好大的挑战，现在这个产品做出来之后，我们用户体验下来之后，感觉真的是很酷，而且它在开车过程中，有几个挺好的功能，比如说你开车是用全语音方式设置导航地点，设完之后开始导航，导航过程中来电话的时候，你再也不用担心说这个导航界面，被这个来电显示给盖住，而且你也不用拿起手机接电话，它直接说一句谁谁谁电话接听还是拒绝，你说接听，这时候就通过蓝牙的方式，就通过电话的信息用喇叭放出来，当然你也可以带耳机听，都可以，还有你说挂断，就可以把它挂掉，继续开车。

正在开车的时候又来了个谁谁的微信，播报还是忽略，你说播报，它就把微信内容给你读出来，你这时候完全可以不看屏幕，你就可以知道。你看着车看着路，它语音播报谁谁谁说今天下午我们一起去吃饭，地点定在什么地方好不好，然后你这时候可以说回复，然后你说好，我们就定在那个地点，我在下午7点半准时到，我们的语音识别率很好，我们语音说完之后，能转成文字发出去，而且准确率非常的高，几乎是一个字不错的能够把它发出去。

目前看它也许只是一个智能汽车，跟非智能汽车过度期间的一个过度产品，但是做好这个人车交互平台之后，我希望这个平台甚至不是通过这样一个合作的方式去体验，而是把这个系统直接装在车里边，然后在开车的时候，直接可以无缝的去使用，我们这么好的这种语音交互的能力，去做车的操控，甚至到某一天，我们通过资本运作，跟车厂做战略整合，我们去做可以语音操控的自动驾驶，这是我的梦想，在我的朋友圈子里边有一条，很多我的朋友都看过，我写的是说如果哪一天，真的实现自动驾驶了，我开辆房车去周游世界，现在如果说你要开一辆房车，去周游世界，那很痛苦，因为开车时间太长的时候，真的会很疲惫很累，那不是愉悦的体验了，但到能够用嘴去开车的时候，我只要说我要去哪里，它就会带到那个地点，期间我可以睡觉，我可以看书，我可以看东西，或者欣赏沿途的风景，我相信这是一种人生，可以更加完美的一种人生。

版权声明：本文作者i代言，文章为原创，i黑马版权所有，如需转载请联系zzyyanan授权。未经授权，转载必究。

［本文作者i代言，i黑马原创。如需转载请联系邮箱hm@chuangyejia.com授权，未经授权，转载必究。］