普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注
黑智 黑智

普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注

2015年,普强切入车载场景,联手四维图新和腾讯,共同开发出“云+端+芯片”的智能车联网大数据系统。

本文系i黑马原创 首发黑智(VR-2014)作者:赵雪娇

语音识别是“最具前途”的领域

从北京大学和美国费城大学分别获得计算机系硕士学位后,何国涛曾在HP、Aruba等公司从事Opencall、Voice XML、无线网关等产品的研究和开发,HP多媒体服务器的语音识别技术,就是他所在的小组研发的。

而也就是在Aurba,何国涛结识了蒲瑶。后者本科毕业于中国科技大学,是科大讯飞CEO刘庆峰同系校友,同样也是从事语音识别相关产品的研发。

2008年,科大讯飞上市,一度垄断国内语音识别市场的半壁江山。但那时的语音识别创业领域,还是一片待开发的处女地。后来被苹果收购的Siri也成立没有多久,而何国涛却动了创业的念头。

“我刚毕业时,根本还没有人会说自己是学人工智能相关的。因为那意味着失业。”何国涛说。“也有很多人质疑,总是说这个方向不对,那个技术不好。而我们就决定,自己出来,在这个领域做一些事情。”

何国涛和蒲瑶最终还是决定,在语音识别领域做下去。“创业,我认为一是要有技术壁垒,二就是要有能够赚钱的市场。我在惠普接触了客户需求,也懂得应用,我认为,语音识别仍然是最具前途的领域之一,而当时,其他人要进入这块领域,也并非容易。”为了解决核心算法,何国涛还“挖”来了自己的师弟——IBM Almaden研究中心的李全忠博士。后者一直从事数据库及云计算研究,还获得过IBM发明成就奖。

于是,普强信息最初的创始团队形成了。何国涛担任CEO,负责公司运营;李全忠博士任CTO,负责核心算法的研究;蒲瑶(普强信息VP)负责产品。2009年,普强信息在美国加州硅谷成立,并获得了EDA之父黄炎松博士的100万美元A轮投资。第二年,普强信息设立了中国运营公司,在硅谷和中关村都设有技术研发中心。2013年,普强获得戈壁领投500万美元B轮投资,2016年获得四维图新领投的近亿人民币的C轮融资。

目前,普强研发团队占公司人员的80%左右,其中博士、硕士以上学历者超过30%。

挑战语音大数据分析

何国涛对公司的发展方向有长期的思考。“小公司做事要专注,现在普强一百多人只做垂直领域,包括车载和电话信道语音识别,而且要做到最好。其实这很简单,就集中优势力量做好一个小事情。”

普强在自身的语音识别和语义分析技术基础上,就锁定了两个方向:语音大数据和车载

当前,由于智能设备的大量应用,大量数据,尤其是呼叫中心等领域,大部分数据都是语音和图像等非结构化数据。普强力图提供语音大数据分析能力,为企业解决非结构化数据分析的需求。

2010年,普强面向呼叫中心推出了“千语语音识别引擎系统”和“千语千寻语音分析系统”。

据介绍,普强已经为金融、电信、保险等多个行业,提供了准确度较高的电话信道的ASR(语音识别)引擎。针对呼叫中心座席与客户的对话,千语千寻系统的算法和模型接入后,能将不同地域口音的来电转换成文字,还能根据不同的系统用户需求,标注出关键用词。

李全忠博士向黑智(VR-2014)介绍,“千语语音识别引擎系统”开发应用了深度神经网络技术,通过语音切分技术和对识别结果的算法,进行语速探测、情绪识别等,以及对讲话对象、时间边界等进行分割,不仅提高了语音识别结果,也可以辅助企业进一步挖掘和分析海量语音数据。

当坐席和客户通话时,接入了普强的千语千寻系统模型,不仅能将不同方言的来电转换成文字,还能根据不同的系统用户需求,标注出关键用词,并针对其进行统计和专业化分析,挖掘客户需求;对客户流失进行预警分析,挖掘客户投诉原因,进行干预;或者替代人工质检。何国涛举例说,例如某保险公司就有2万左右名保险销售,管理者需要知道如何提高销售成功率,客户投诉的是什么问题,客户购买保险服务的原因是什么等。“千寻”把这些问题都细化成文字,以解决客户的需求,提升公司工作效率和营销转化率。

进行语音大数据分析,最基本的一点就是数据。李全忠表示,普强在呼叫中心电话线领域积累了十多年的数据,对电话语音数据处理和标注的积累,在业内是首屈一指的。

而对语音分析,最关键的比拼点,则是“快”和“准”。“准确度和识别速度往往要平衡,在不损失精度的前提下,我们可以做到最快,系统的全文识别率可达85%以上,关键词识别率达95%以上。”李全忠博士说。他表示,千语千寻语音分析系统目前中文语音分析速度,是国内最快的。它拥有的文本分析引擎和索引处理技术,能够实现分析操作在秒级以内完成,而业内多数语音公司的产品则要半小时甚至更久,千语千寻比之,要高出一个数量级。

除识别引擎及分析系统外,与国内外厂商相比,普强的优势是拥有多年呼叫中心工作经验的专家们所组成的专业咨询团队,以及完整的识别设备和工具,来协助客户进行定制化应用服务,以保障企业最高的投资报酬率。

而据何国涛对黑智(VR-2014)透露,目前普强在业界公开招投标的项目中,始终保持着最高的中标率。

联手四维图新,切入车载场景

经过十多年的发展,四维图新已成为国内数字地图内容、车联网和动态交通信息服务、基于位置的大数据垂直应用服务主要提供商之一。其数字地图一直主导中国前装车载导航市场,获得大量、东风日产、北京现代等主流车厂的订单。而和四维图新的联手,显然加快了普强切入车载场景,迅速渗透车厂和车机系统集成商,积累大数据的步伐。

2015年,普强联手四维图新和腾讯,共同开发智能车联网大数据系统 WeDrive。其中,四维负责导航,腾讯负责内容,普强主攻前装。

微信图片_20170425190505

这套智能车载语音系统,是由“云+端+芯片”组成的。普强自主研发的是离线、在线的两个声学模型,其他的为集成。

阵列麦克风可抑制噪音回音,进行声源定位。车载降噪DSP芯片可进行车载降噪去回声,这也是普强的投资方——美国的一家芯片公司提供的。“他们只做芯片,花了大概一亿美金做了十年,这就是壁垒。”

“从前端麦克风技术,包括硬件的DSP处理三到四个麦克风,到后端的云端,整个一条脉络已经打通了,基本上这个解决方案是最优的。”李全忠说。

另外,普强还可以做嵌入式识别,车机识别的系统直接在车机里面做,不用跑到云端。车载需要保证稳定性、安全性,对嵌入式识别压力非常大。普强会针对不同的系统和车机本身的噪音特性,分低中高端方案,量身定制识别算法。“把这些都优化进去,才能做到最佳,当然也要满足用户识别率的需求。”李全忠表示。

目前,普强车载语音系统已经被集成进多家国内主流车厂。普强最近也把嵌入式的算法嵌到四维收购的公司杰发科技,后者占后装市场的70%,大幅提高了市占率。

用户需求优先的“田忌赛马”战术

在何国涛看来,“专注”还有另外一层含义,即要准确理解用户的需求。而对人工智能创业公司而言,算法并不是唯一,更重要的是,理解用户的产品需求。从产品、界面、工作流到用户层面的交互设计,都要围绕它进行。比如,对车载产品而言,车速变化时,会影响到语音识别的准确率;车开得快,根本不会出现车旁边有个人在走路的情况;车开得慢,就要小心旁边打球的小孩……

针对用户对产品的强需求出发,何国涛为普强提出了“田忌赛马”的战术。“算法肯定有最快的,但是在语音交互领域,准确率相差一两个点并没有本质差别。原来从 GMM 跳到 DNN,相对准确率增加了20%到30%,是很大的提升。可是现在大家使用的都是神经网络,准确率达到95%或者96%,对用户有什么区别?我们没有必要做20个系统功能,都保证96%的准确率。”

在车载领域,普强重点做的是导航、电话、音乐这几个系统功能。“在车里人机交互的时候,一般用户50%以上%的需求是在导航上,40%以上是打电话,还有10%是听音乐、听收音机、查股票等。如果把这3个主要需求都做到近100%的准确率,那么整个系统的准确率就能超过90%。如果大家都只有100人,别人每个功能5个人,普强的3个功能每个都有30个人并且做到最好,这就是所谓的田忌赛马。”何国涛说。

中国一年生产约2700万辆新车,如果人机交互的系统每辆车收取一百块,市场规模能达到27亿。如何能在这片蓝海中切到大块蛋糕?按照何国涛的设想,未来普强会将多种交互方式融合,让车像人一样具备视觉、听觉等多种感知能力。比如人可以用手势调节声音大小、调控座椅位置。要把这些技术很顺畅地切到场景里面,这些工作更多是需要工程师来实现。“算法是第一步,剩下10%的事情,需要再花90%的时间做好。”

微信图片_20170425190632

语音大数据 车载
赞(...)
文章评论
匿名用户
发布