【抄本质】征服巴别塔:电脑同声传译有望实现!
2013-01-14 14:40

在1960年代开始的电视剧《星际迷航》里,不论星际飞船“进取号”在宇宙里航行到多么遥远的地方,它遇到的任何外星人都能用流利的加洲口音的英语交谈。剧中是这样解释的,Kirk(柯克)船长和他的船员们都佩带着微型万能翻译器,可以扫描外星人的脑电波,然后将他们的思维用得体的英语同步表达出来。

当然,这是科幻小说来着。但最优秀的科幻小说往往能预言未来。许多人相信,正是《星际迷航》第一季中出现的弹开式通讯器启发了翻盖式手机的设计。不过也有不好的一面,许多军方和军事装备公司正在开发的高能激光武器与相位武器有惊人的相似。那么,自动同声传译还要多久才能成为常见之物?学校里沉闷乏味的语言课程什么时候才可以取消?

这可能要比语言教师、翻译和其他以消除沟通障碍为生的人们所希望的来得要快。在过去几个月,源自不同渠道――从强大的微软到产品花哨的个人发明家――的消息表明,同声传译装置虽非完美,但做到基本可用已经指日可待了。

去年夏天,伦敦发明家Will Powell展示了一套系统,可以在英语和西班牙语之间即时传译――如果交谈者可以耐心地说慢一点。对话双方都戴着耳机,耳机连着一部手机;还带着特制的眼镜,上面可以显示翻译出来的文字,有点像外语片里的字幕。

日本最大的手机运营商NTT DoCoMo在11月推出了一款服务,可以将电话中的日语和和英、中、韩三种语言进行互译。每一方交替说话,该公司的电脑接收通话内容并在几秒钟内翻译。翻译结果视情况输出为男声或女声。

微软的成果可能最令人心动。10月,微软研究院院长Rick Rashid在天津出席了一场会议,他在会上用英语发言,而他的结束语实时翻译为中文,先是在大屏幕上显示字幕,稍后即用电脑合成的声音读出。令人惊奇的是,Rashid先生的中文演讲和他本人的音调一致。

嗯?

虽然这三种系统各不相同,却都面临着同样的问题。第一个难题是识别声音并数字化。过去,语音识别软件将语音分解为组成语言的最小单元,称为音素。在汉语普通话中有25个音素,英语40个,一些非洲语言则超过100个。然后由语音统计模型和一种称为高斯混合模型的概率工具来识别每个语素,再将其组合为原来的单词。公司电话自动应答系统中烦人的语音邮件最常用这种技术。如果严格按词汇表来,这种技术还算说得过去,但只要稍微自由发挥一下,它四个单词里至少能搞错一个。

Rashid先生展示的翻译系统有多处改进。首先,它识别的不是单个的音素,而是连续的三个音素,称为senone(音组,自译)。英语中有超过9000个。如果能够一一识别出来,判断出它属于哪个单词要远比单纯由音素判断容易。

微软的音组识别系统基于深度神经网络原理,这是一种由人脑结构启发而来的算法技术。这种人工网络由不同的软件组成虚似的神经元。每个神经元权衡相邻神经元发来的信号强度,并根据信号强度向相邻神经元发送信号,然后其它神经元重复同样工作。通过调整神经元之间联系的权重,可以教神经网络学习匹配输入与输出。

我们已经确切知道,真正的人脑中,神经元由不同层次组成。深度神经网络模仿了这种层次结构。微软的有九层。最底层学习待分析的语音特征,上一层学习将这些特征进行组合,层层向上,逐渐形成更加精密复杂的关系。最上层推测系统听到的是哪个音组。通过使用已注明音组的语音库,识别正确的结果反馈回网络,这样可以提高网络的识别能力。

微软的研究人员表示,他们的深度神经网络翻译器相比于旧系统出错率至少低1/3,在某些情况下,出错率低至八个单词仅错一个。Google也已经开始将深度神经网络用于安卓智能手机的语音识别(还没有开始翻译),并表示已经将错误率降低至少20%。另一家语音识别服务提供商Nuance也宣称达到相似的进展。深度神经网络计算量庞大,因此大多数语音识别与翻译软件(包括微软、Google和Nuance的产品)都是在云端运行,由高性能在线服务器依次处理各种智能手机和家用电脑的请求。

乜嘢?

然而语音识别只是翻译的第一步。同样重要的是,将信息转化为外语的句子,还不仅仅是词(词已经够难了,每种语言在词义上都有歧义之处,更有些意义是根本无法翻译的)。这通常要用到不同的语法规则和不同的惯用语序。因此,即使一个句子里的所有英语单词的含义都是确定的,电脑也有可能翻译出来或别扭或搞笑的不准确说法。

Google用于网络翻译服务和智能手机翻译程序的解决方案称为众包。它将待翻译文本与软件处理过的上百万条语句进行对比,再选择最合适的。Jibbigo是根据卡内基梅隆大学研究成果发展而来的旅游用翻译软件,它的原理类似,不同之处在于它向发展中国家的使用者们支付费用,用以改进他们的母语的翻译水平。但即使如此,语言中最终极的隐晦含义也会让机器翻译工程师们感到一丝悲观厌世。

例如,虽然NTT DoCoMo的电话翻译快捷易用,但任何比客套话复杂的句子都会让它难于应对――即使它也使用了神经网络。句子必须要短以保持准确性,但用词仍然会混乱不堪。

微软寄希望于,如果以说者自己的声调说话,那么听者会对这些错误更加宽容一些。在对说话者一小时的语音语录进行分析之后,微软的新系统可以将独特的音色进行编码,再以相似的频率范围进行语音重现。这套系统在中国的使用效果良好,当时Rashid先生的电脑合成(偶有错误)普通话收到了热烈的掌声。

如果一款万能翻译器仅适用于会议场合,那旅行者使用它就会受到限制,不论是星际旅行或仅是洲际旅行。Powell先生的对话翻译器只要有手机信号就能用。语音由耳机接收,再输入附近的笔记本中的语音识别软件,识别出的文本再由手机通信网络传给微软的在线翻译引擎。

一大难题是在翻译对话时随时判断出谁在说话。Powell先生的系统不是通过直接识别声音来判断,而是由两个翻译引擎(英语译西语,西语译英语)同时翻译语音。因为翻译的结果只有一种是合理的,这样系统就可以决定是谁在讲话了。然后,它就把翻译内容显示在另一个人的眼镜上。

Powell先生的同声传译系统目前需要还使用耳机、云服务和介于中间的笔记本,这说明它仍然只是一个设计原型。单一说者的交替传译技术更高级一些。目前Jibbigo的技术是最先进的,它能把语音识别和支持10种语言4万词汇量的数据库放进一个程序里,运行于今天的智能手机上而不需要任何网络联系。

恁说啥?

问题仍然存在。在现实生活中,人与人之间的交谈相互重叠,夹杂着俚语或是在吵闹的大街上说话,这些都能让最先进的翻译器无能为力。但即使还要过几年《星际迷航》式对话才能成为寻常事物,万能翻译器仍然远比相位武器、传送光束和曲速引擎更有希望从科幻小说中走入现实。

Via i黑马 By 经济学人 译者:Lichee