王小川:大家可能高估了人工智能的未来
2016-07-16 19:44 搜索 人工智能

在今年上半年,我是鼓吹过AlphaGo这样一场跨世纪的比赛。

7月16日,由极客公园举办的,2016奇点——创新者峰会在上海科技馆举办。搜狗CEO王小川做了主题分享。Xtecher小编第一时间送上此次人工智能演讲的最全干货。

王小川本人是人工智能的鼓吹者。在大家谈互联网的时候,搜狗就开始谈产品;大家谈产品的时候,他们就开始谈技术;大家开始谈技术的时候;他们已经开始谈人工智能。那今天大家都在谈人工智能,这次一些什么东西呢?王小川认为搜索公司本身就在做人工智能,对于搜索公司而言,人工智能技术的引入不是颠覆新的市场,而是在原有的用户需求里面进行一个渐进性的改进。

在本次大会上,王小川的演讲别出心裁,大屏幕的搜狗语音识别同步展示文字,讲完速记就出来了,很戳萌点。下文就是此次实时速记的抢先内容。

 口述|王小川   Xtecher记者整理

谈人工智能的时候,我会谈一些反思。因为今天大家可能过多的高估了人工智能的未来,在今年上半年,我是鼓吹AlphaGo这样一场跨世纪的比赛。

 语音识别仍有很多限制 

在全球范围内的投资异常活跃,在中国也一样。在这个时候,我想谈到“我们得小心,什么地方是陷阱,什么地方是真的人工智能的未来”。在前一个月我去谷歌跟AlphaGo的工程师做了深度沟通。有什么样的算法能够改进赢得第四局的比赛?谷歌的工程师跟我苦笑。说:你讲的方法我们都试过了。回到我们对于深度学习,今天大家知道它有巨大的危险。因为传统做人工智能的一些专家就在语言深度学习本身有它的缺点,稳定性不够。在一些需要完全可靠的场景里面,它没有完整的数学的计算和证明。所以这种情况里面,即便它是99%的正确性,也可能会带来不确定。比如:在无人驾驶。这1%都不确定性,就可能带来汽车的失速,而且我们还不知道怎么修改。深度学习能够做很多事情,但是到现在我们人类的技术掌握还是够浅的。

我也谈到在“语音识别”这样的一个话题,今天语音识别已经到了比较高的准确度,已经接近实用。但是还有很多的限制。比如:我们需要安静的环境。当有噪音的时候,如果同时有两个人在说话,机器就搞不定了。我没有办法去去除噪音,比如:在汽车的环境里面。我们会预先录制有发动机引擎的声音,或者是车窗玻璃的噪音把它加到我们的识别系统里去。就把没有见过的这样一个环境,变成机器能够见过的环境就能够做识别。但是我就跟工程师在聊,如果有两个人说话怎么办呢?总有一个人的声音是听不见的。我们的解决方案是用麦克风矩阵,当有一种麦克风的时候能够定向的做识别,如果两个人不同的位置不同的声音音源,就可以分离开。

今天的计算机离人还有巨大的距离  

人是靠两只耳朵定声音吗?如果只有一只耳朵,或者两个人在同一个方向说话,会怎么样?人是能识别的。机器就做不到了。我也问了搞神经科学的人。他们会说,如果当有两个人说话的时候,位置不一样,人就能分离开。如果位置一样,一个人声音大,一个人声音小,也能分开如果两个人声音一样大,一个是男声、一个是女声,也能分开。如果都是男声,但一个人说中文,一个人说英文,也能分开。所以人是在一个环境当中,只要能够找到一线机会去把两个声音的不同能够找到这样一个特征,就能动态的去分离。但是对不起,今天在全球范围内,我们号称在语音识别有重大的各种各样的突破,还是解决不了这样的问题。所以我们知道,今天的计算机离人还有巨大的距离。

除了一个技术本身的瓶颈以外,我们在创业当中,有很多领先的技术公司还会面临什么样的瓶颈?很危险的,一种可能性就是有技术。带着这种技术去找市场,比如:我们做了人脸识别,就开始想像人脸识别怎么去使用,就去找市场的方向。但是很有可能在这个过程当中没有找到,我们公司就死掉了。也有一种可能性是在找市场的过程当中,我们花了很多力气去组建我们的销售团队。我们去尝试跟各个领域去结合,但是这个时候,忘了技术的源头。因为技术是不断在迭代更新的,如果我们不能够跟高效、跟前沿的技术保持同步,可能我们偶尔找到了一点市场,但是我们的技术一定变落后。

今天在中国的人工智能领域里面,做语音识别、图象处理的公司有很多已经掉了这样的一个陷井里面去了。所以创业的道路里面我跟投资人也在讲,非常不容易,技术本身就没有这么靠谱。即便技术靠谱,可能没有市场,即便有了市场,可能我的技术已经丢掉。像我们的做法,就是已经有广大的市场,搜狗的输入法、搜狗的搜索已经有千万的用户在使用。

人工智能跟高校、学术界的联动是比较多的,要不断的跟技术的前沿保持同步。比如:李志飞一定会由他的工程师团队读论文甚至写自己的论文,把这个前沿给跟上。人工智能创业不像以前的互联网创业一样有一个模式就够了,而是要不断的把技术积攒起来。

搜索本身就是一种人工智能

在这里面也提到一个命题作文:我们怎么讨论“技术”跟“幸福”之间的关系?我做了一张简图,左边是提的一些技术。包括:语音识别、人脸识别、人机交互、服务机器人等等,大家觉得这个词跟幸福有关系吗?在座大多数的人本身不是搞技术的,因为大家敬仰技术、崇拜技术,所以我们会过度的在技术里面自己想像出它无限的光环。其实跟幸福没关系,是因为我们的不理解、恐惧和向往带来了一种误解。

看右面。右面这些听起来我就觉得比较酷了,自动驾驶、能听懂我说话、诊断疾病、一键送咖啡。听了怎么样?是不是有一些幸福感?左下角这个词大家看到了吗?活捉皮卡丘。这几天有一个非常火的虚拟现实游戏。不是再跟左边一样讲虚拟现实,而是讲给我们带来了一个把活生生的卡通形象放到我们面前,这是我们看到的幸福。所以对比左右两个图,不论是创业者还是一个媒体人,还是一个投资人。

给大家看一个蛮幸福的科幻。在此之前给我们讲一讲我们搜狗对于技术和幸福之间的联系和理解。其实有朋友跟我谈搜索的时候说,王小川,你们要转型做人工智能了吗?我说:不是,搜索本身就是一种人工智能,而且是有幸福感的人工智能。因为它能让每个人变的更加强大,有时候我跟一个90后走在一块。我发现它很厉害,它无所畏惧。因为它知道拥有了搜索之后,能够解决它所有的问题。上面一搜索,有有答案。所以今天的这些年轻人,利用技术、利用搜索,变得更加的强大,拥有了更大的幸福感。

 为什么说搜索就是一种AI呢? 

搜索第一部分是让用户先要去做一个关键词的搜索,然后给它提供10条链接。这是搜索今天产品运行的基本方式,但是我们知道这个关键词是我们最好的输入模式吗?

今天大家已经很习惯了,我回顾在1999年-2000年搜索刚刚出现的时候。我观察过,那个时候大家更愿意敲一个整句。发现:对不起,机器不能识别。所以大家训练去使用了这样一个关键词。这个事情就像我们计算机使用鼠标一样,大家都会很习惯用鼠标。但是今天我们发现,乔布斯告诉我们,更好的方式是用手指直接在屏幕上戳。所以关键词的输入,相对于人的自然输入,就像用鼠标和用手指自然表达一样,是需要继续去提升的。因此搜索引擎往下的进展方向,就是把一个关键词让人去想一个关键词,变成人去表达一个完整的句子,机器找出中间的含义。

同样的,10条链接,也不是我们最想用的方式,而是应该通过用户的问句直接给出答案或者给出你的一个命令,机器去做执行。因此从今天搜索,当我们往下的进化,对搜索引擎的公司是一个渐进的过程,就像谷歌已经提到:“自己从一个移动互联网公司变成一个人工智能公司。”为什么他没有做到这个东西呢?听了很好听。对吧?是因为今天全人类的技术,能做到让机器去理解人,能变成一个句子,能够给出一个答案还是蛮有距离的。只是我们在这条道路往前走,所以对于搜索公司而言,人工智能技术的引入不是颠覆新的市场,而是在原有的用户需求里面进行一个渐进性的改进。

搜索公司本身就在做人工智能。如果大家看搜狗觉得不过瘾,可以看谷歌,它已经代表了人工智能在今天应用的最高峰。因此在未来的方式里面,类似于像Siri或者其它的人工智能的交互引擎是我们共同的梦想。我个人的判断,这样的一个未来更多是属于搜索公司的。