科大讯飞的语音生态梦想
刘庆峰 刘庆峰

科大讯飞的语音生态梦想

让机器能听会说、能理解会思考是未来人机交互的发展方向,语音作为最被看好的人机交互方式,可进入我们生活的每个角落,有人类活动的地方就有语音需求,科大讯飞能实现其语音生态梦想吗?

黑马说:让机器能听会说、能理解会思考是未来人机交互的发展方向,语音作为最被看好的人机交互方式,可进入我们生活的每个角落,有人类活动的地方就有语音需求,科大讯飞能实现其语音生态梦想吗?

QQ拼音截图未命名 

口述/刘庆峰  科大讯飞创始人、董事长
整理/崔婧
编辑/蒲鸽


现在互联网行业有个说法是,做平台才会生生不息。我觉得,做生态和做开放平台是差不多的意思。就我的理解,科大讯飞(下称讯飞)生态架构应包括以下三方面内容:

第一,语音的特点决定了语音产业需要构建更好的生态。这是因为,语音可进入社会生活的每个角落,有人类活动的地方就有语音需求,甚至未来机器和机器通话也需要语音,从能听会说,到能理解会思考。语音不是单一产品,围绕它能够衍生出很多应用。
 
第二,必须搭建平台,以让更多人通过自我创新从中获益,因此未来构建的应该是一个合作共赢的生态体系。基于此,我们已将讯飞语音云平台开放出来,为平台上近5万个创业者提供核心技术,提供云端各种资源存储以及后台分析能力,甚至把之后的变现能力也已开放出来。要打造的生态,必须具备可观的成长空间,能够为合作伙伴带来全新价值。

第三,构建一个生态,就像培育一株大树,树的根系很重要,而讯飞,希望在语言和语音产业中扮演发动机的角色,不断创造出全新技术。从语音合成,到讯飞语音云,到声文识别,到口语评测,到翻译,到自然语言处理和图像人脸识别技术,每一步都已证明,讯飞胜任产业发动机这一角色。


语音生态圈包括这样一个链条:硬件研发—软件研发—语音方案研发—集合方案后的产品制作—面向C端用户的软件开发—C端用户的使用,同时C端用户的使用又把信息从产品导向了语音,继而导向软件,再导向硬件。整个参与过程,因有了信息的流动,价值得以产生。价值何来呢?这就是讯飞语音云平台目前在做的事,即对用户数据进行分析,为用户画像,以此指导讯飞的商业化。这是一个纵向生态链。
 
我觉得,在中国各产业发展过程中,未来一定要有一批自主创新企业在生态体系中掌握价值链主导权,这样我们的产业才能持续健康成长。我希望,未来的讯飞能够主导价值链关键环节,通过持续不断的源头创新,将这一生态做大。
 
最优化核心技术
 
讯飞对整个产业生态的贡献,首先是iFly inside,即为广大To B客户提供最好的技术支撑。中国电子企业百强前10名中,有8家在用讯飞的技术。放眼各领域,目前国内已有2000多家龙头企业在用讯飞的语音技术。
 
创业初期,我们也曾走过弯路。那时,我们下了很大功夫,开发出了一款电脑桌面软件“畅言2000”,试图把手写输入的随意性、键盘输入的准确性和语音输入的高效性完美结合起来,然而产品叫好却不叫座,市场反馈不如人意。之后,我们又尝试用语音合成技术解决海量动态信息,并找到当时异常火爆的合肥及上海的168声讯台,成功进行了试点,结果仍是产品没有办法销售出去。
 
屡遭挫折后,我意识到,讯飞直接做消费者市场有些理想化,于是重新调整了思路——让有渠道、有市场、有技术的大公司去直接面对消费者,我们准备像Intel一样,专注做好iFly inside。换言之,讯飞只负责开发引擎、语音合成和语音识别芯片,而应用集成则由下游的开发商或客户自己完成。
 
2000年初,讯飞顺利通过了华为的技术测试,成为后者语音合成技术供应商。不久后,来自中兴、鑫泰、神州数码等大型企业的语音技术服务订单接踵而至。这是讯飞企业发展史上的里程碑式事件。自此到当年年底,讯飞迅速发展了近50个稳定的TO B客户。
 
之后,我们通过跟美国的Nuance公司合作,又切入到了语音识别技术领域。后来,我们感觉,讯飞自主研发的技术可逐渐超越对手,因此在2006年,我们告诉Nuance公司,不跟它合作了,因为我们要自己独立研发。2年后,讯飞该领域技术已超越Nuance。
 
那时候,我们更多的是在技术上支持企业。基于用户打电话访问自己账户信息的情况,多家银行陆续推出了电话银行业务,但随着客服成本越来越高,银行希望用户的一些简单查询能够以机器答复替代人工,以减少坐席人员投入。国内最早有此需求的是中国工商银行总行。当时讯飞的技术满足了该行要求,成功中标。
 
为了推广技术,我们还搞了一个语音应用行业峰会。我们把金融、证券、运营商等行业代表以及行业内信息化专家都邀请过来参加论坛。这个论坛一般围绕两件事情来进行, 一是讨论当前语音技术发展处于何种阶段,一是为使用我们语音技术的企业(比如工总行、中移动)提供一个介绍经验的场合,让其他同行业伙伴了解我们的语音技术在这些企业应用的情况,这些企业也挺乐于分享基于语音技术推出的一些创新型项目。
 
在行业内传播开来后,我们也定期印制期刊寄给这些企业,主要内容包括讯飞的应用案例,语音技术处于什么状态,语音技术在哪些行业已经产生了哪些新应用等。这些企业的老板看到信息化专家的观点之后,就会琢磨:我这个行业是不是也可以使用讯飞语音技术降低成本、产生价值,或者创造一些新的效益呢?
 
我们的客户主要定位在中大型企业,因为讯飞提供的技术往往有较高门槛,企业需要先花费高额资金购买讯飞的技术,才能再去开发自己的应用。
 
在构建讯飞生态系统时,我们更为关注用户使用习惯和技术匹配度。技术到哪一步,能够打动什么样的用户群,这需要有一个非常切合实际的认识并不断进行摸索。当然,真正难突破的是源头技术的创新,之后才是应用的创新。这就好比,如果没有3G、4G等基础通信技术的发展作为支撑,就不会有现在移动互联网对传统产业模式的颠覆。但很多人都不去想未来创新的真正源头到底在哪儿。
 
顺势搭建平台
 
在提供核心技术的基础上,我们又进了一步,搭建了云平台,为所有创业者提供开发平台。
 
这是有原因的。自2007年开始,互联网应用逐渐兴起,我们陆续收到了来自中小企业和开发者的很多反馈,他们很想使用讯飞的技术,但使用成本太高。
 
这也不难理解。一般而言,企业开发应用前,需要先花30万元买硬件,花30万元买平台,再加上其他成本,没有100万元预算,根本没办法开展业务,但这一投入对于中小企业和开发者来说,过于高昂。
 
1年后,我受到了如下启发:用户拧开水龙头,就可以接到水,但他不见得非要自己建个小型自来水厂。有了这样一个思路,讯飞借助互联网搭建了一个云平台。在使用核心技术外,该平台可降低创业者初始开发门槛,产品开发出来后,他可直接依托讯飞语音云平台对外提供服务,免去了前期在服务器上的资金投入。
 
对于我们自己来说,通过云端,可以自我学习和进化,后台数据越多,我们的识别准确率越高。建这个平台的时候,我们也不知道用户数可以达到目前的近6亿,下载量可以达到目前的9亿多。
 
2010年底,我们正式发布了讯飞语音云以及语音输入法体验版。站在发布会现场进行演示时,我很紧张,担心出岔子。因为当时我们的团队对于做平台还没有太多经验,输入法性能不太稳定,在发布会之前,已出现过网络超时等问题。不过,好在我们平台技术人员为此熬了四五个通宵,这通宵没有白熬,当天的演示很成功。
 
发布会后,讯飞用户数增长非常快,这是我没有想到的。但过了几天,用户流失率开始直线下降,突然间幻觉破灭了。我开始担心用户不再关心语音,开始怀疑该产品能否被用户一直使用。后来我们分析了原因:用户很可能只是觉得好玩才下载的。从让大家觉得好玩到让大家觉得好用,对我们来说,是一个很大的跨越。我们开始注重产品的实用功能,比如打电话、发短信、听音乐等。此后,用户每天使用量开始慢慢提升。
 
讯飞是一家传统的TO B企业,主要客户是中兴、华为、联想等电信设备商和终端商,缺少对互联网用户的开放经验,语音云发布之后相当长一段时间都没有多少用户,半年只积累了100万用户,而我最初的预期是,一天就可以有几万的用户增长,落差非常大。为此,我们去调研,结果很多用户反映,输入法的识别率根本不行,看到网络不停地转,但数据结果就是出不来。
 
这是语音技术准确率的问题。在网络通畅的情况下,比如在试验室内或特定衍生场景下,语音识别效果很好,但大规模应用时,准确率如何保障,我们缺乏经验,没有对移动网络状况予以优化。这对我们是一个技术上的折磨,当时很受打击。
 
但我相信,语音应用一定是未来手机交互最重要的方式,所以我们一步步对产品进行了优化。一段时间后,用户跟我说,讯飞的产品效果比以前要好很多,我听后特别高兴。
 
在过去的10年,通过iFly inside,我们发展了2000多个开发者,通过语音云,在2年内已发展合作伙伴5万多个,讯飞正从一个单一的核心技术提供商向基于云端的开放平台型企业转变。

 

27

 
合作分享以共赢
 
平台搭建完成后,讯飞将平台向上下游开发者开放,所有拥有核心技术的开发者都可以把自有技术放到这一平台上来。
 
比如图像识别技术。通过和香港中文大学教授汤晓鸥以及他的研究团队合作,我们将人脸识别技术应用到了讯飞语音云上来,使之识别准确率提高到了99%以上,比肉眼识别更精准。汤晓鸥是该领域顶级专家,精准人脸识别技术,实况人口流量状况技术、照片自动人脸设备分类技术等,均为汤晓鸥及其团队的科研成果。
 
我们还和哈尔滨工业大学合作了自然语言处理技术,推出了“哈工大讯飞语言云”。哈工大“语言技术平台LTP”是为开发者提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理技术服务的平台,已经被500多家国内外研究机构和企业使用,其中百度、腾讯、华为、金山、中国科学技术信息研究所等多家大型企业和科研机构为付费用户。目前它已成为国内外最具影响力的中文处理基础平台。
 
我认为,人工智能是未来真正可出现颠覆性产品的领域。我对这一领域的发展时刻保持着警惕,所以2014年,我们专门启动了“讯飞超脑计划”。该计划聚集了来自语音及语言国家工程实验室、清华大学、加拿大约克大学等10多位人工智能领域顶级专家。在实现了让机器能听会说之后,我们梦想是,让机器能理解、会思考,而它的知识不是人类灌输的,而是自己通过不断学习获得的。
 
事实证明,合作伙伴的先进技术可以对讯飞云平台的核心技术进行补充。开发者基于这一平台可以不断推出各种新应用,而他们之间,也借此得以相互关连。我们每月召开的讯飞语音云沙龙都会邀请一些创业者来做经验分享。
 
比如教育领域。现在,每天有7000多万师生在用我们的教学产品。老师们的课件内容可以分享给讯飞,其他创业者可以在该平台上共享使用。2013年底,我们和外研社合资成立了北京外研讯飞教育科技有限公司。外研社拥有国内大学英语教材60%以上的市场份额,在它将英语教学应用面向大学生推广后,老师、学校、出版社以及更多第三方推广教学应用的机构都可以在这个平台上使用。
 
音乐领域亦然。目前全国唯一打通三大运营商的音乐搜索和音乐发布平台就是讯飞做的,时下用户已达9千万,其中收费用户上千万。黄梅戏等地方戏曲,可以通过我们的音乐平台推销给各大运营商。而做音箱、玩具等其他产品的合作伙伴,可直接将该黄梅戏放到自己的个性化产品中使用。在我们的平台上,大家可以相互促进、合作共赢。

聚焦爆发点
 
在上下游开发者都已加入生态体系后,我认为,我们有必要在该体系中打造几个近期可以引爆的重点领域:
 
第一,智能手机领域。我们除了自己主导的产品讯飞输入法、灵犀助手之外,还形成了以讯飞、运营商、手机厂商为核心的生态体系。我们希望能有更多人加入进来。手机平台是用户根据宣传引导冲动性消费的平台,我认为,讯飞与中移动、各手机厂商的战略联盟会拿到最大份额。我们语音云的用户规模和创业项目数量都在行业中遥遥领先。讯飞输入法排名在2013年就已超过QQ输入法,2014年又已超过百度输入法。根据最近12个主要应用商店语音助手下载量排名,前5名中,我们一家超过了另外4家的总和。
 
第二,教育领域。我们和基础教育出版行业的龙头——人教社合作,正在进行教学平台、网络学习、电子书包等一系列数字化产品的联合开发和应用推广工作;我们与北京师范大学合作,共同创建了基础教育质量检测协同创新中心,并推出了教育评价云。总之,我们和出版社、大学都已形成很好的合作体系,这个体系也已开放给老师、第三方伙伴以及创业者。
 
第三,智能家居领域。我们跟北京、广东等地方广电,三大运营商,海信、长虹、TCL等国内前六大电视机品牌商都有合作。我们不光是让用户通过语音更为方便地看电视,还要向创业者开放,他们可以在上面开发儿童学习、故事频道等应用。讯飞与中移动联合推出的智能语音助手灵犀3.0,已可操控智能家居设备。年轻人装修房子买家具时,只要按照我们建议的型号完成空调、微波炉、窗帘、电饭锅等物品的采购,那么他家里所有物品都可以用手机操控,甚至在路上就可以打开电饭锅,提前把饭煮好。
 
基于中移动无线音乐基地大量正版音乐资源,我们与之联合推出了讯飞智能音箱。不过,目前发展得如火如荼的智能家电产业,厂商产品存在接口不一等问题,没有明确统一的行业标准,如果产品来自不同品牌,则很难建立完整的智能家居体系。未来,语音将进入到智能家居的各种各样的设备中,如果能把设备、语音以及大数据相关的接口都打通,创业者就能共享一个统一的平台,否则他就会被层层壁垒挡在创新门外,而这对整个产业生态体系的建立是非常不利的。
 
2014年,讯飞重要工作之一就是推动中国智能语音行业标准的落地。早在3年前,我们就已牵头成立了语音产业联盟,和运营商、电视机厂商、科研单位、语言技术研发企业以及各高校共同搭建了一个产业上下游交流的平台,得到了工信部的大力支持。
 
第四,车载领域。比如,奔驰汽车在时速超过100公里时,噪音很大,这时只有讯飞的技术能够流畅使用。目前我们已和奔驰、宝马、一汽等国内外汽车厂商,国内外多媒体厂商、导航厂商,甚至是整车厂商形成了一个体系,以加速推动智能语音在车载终端的深入应用。
 
本文不代表本刊观点和立场。

语音 生态 梦想
赞(...)
文章评论
匿名用户
发布