云知声提出“语用计算”概念,AI距离我们还有多远?
2016-07-20 17:18 人工智能 云知声

大家愿意把机器人抱回家,最关键的技术是能跟他自然地对话。

7月19日,云知声在京召开“认知世界,更强智能”技术引擎升级分享会,首次提出“语用计算”技术新理念,何为“语用计算”?国内外人工智能有什么差异?人工智能发展趋势与阻碍又是怎么样的?本次分享会的圆桌论坛上,360首席科学家颜水成博士,中科院智能信息处理重点实验室常务副主任山世光博士与云知声 AI Labs的资深技术专家刘升平博士对这些话题进行了深入探讨。

以下是圆桌论坛演讲内容,经i黑马删减整理:

国内外人工智能在产业和学术上的差异

颜水成:我觉得在图象领域,国内外的差别已经非常少了。国内的特点是,可能自己去创造一个问题的能力相对会弱一些,但当一个问题出现之后的话,我们去解决这个问题的能力,是毫不逊色,甚至比别人做的更好。但我们把这个问题解决更好的同时,其实世界的前沿已经转移到一些新的问题上了。

山世光:我们国内人工智能的发展已经走的挺好,至至少量上我们已经不输了,我们再积累一些时间就可以跟他们平起平坐了,再有一点时间我们就会发现一些引领性的问题,我们最终是要引领的,不能老跟着别人跑。

从这个意义上来讲,目前的问题我们确实容易一窝蜂,深度学习一起来,大家一窝蜂都去做深度学习了,如果再过几年,就像以前大家都做神经网络一样,下一年下一个突破性的进展不是在神经网络上,可能在其他方面。

因为认知智能里面,感知智能是大数据归纳法的话,认知智能是演绎法,我们会推送出很多的东西,最典型的是数据学科,你让计算机做这件事情,他不可能从大数据开始的,根本就不可能从归纳法开始,是从基本的原理开始的认知里面有很多的部分是这样的,这些问题如果我们不去做,别人已经做了,我们要再做就已经晚了。

刘升平:我非常认可二位的观点,我们当时在全世界的人工智能的大会上,国内的话一年就个位数在做,今年有一半的人说,国内有很多的文章在上面发表。人工智能做了几十年之后才会有突破,现在是属于跟随,这个是合理的。

人工智能发展过程中面临的障碍

 刘升平:我觉得从学术上看最大的障碍是在资源开放这块,在智能领域这块国内有很多的技术是拿出来分享的,国内现在几乎是零,即使有一点点还是很小,且是要收费的。

我认为数据的不开放性极大地阻碍了中国认知智能的发展,还有一个现象,中国学者只做英文的认知智能,没有中文的,你即使做出了结果,国外人不承认,你只有再国外做好了,跟人家对比才能做。这样就导致了中文源没有人做,或者是做出来之后,也得不到承认,像我们的口语理解这类都不行,对于我们来说这是非常大的障碍。

山世光:开放数据、开源,这是我们国内不管是学术界还是工业界做的不够好的地方,在国外的开源社区有非常多的人愿意做贡献,他不仅仅是人家拿过来用,他用完了之后也会把自己东西往开源的平台上放。这样越来越多人掌握了基础的东西,可以使得整个行业,整个生态能发展的更快。这是非常值得不管是学术界还是工业界学习的,可能在心态上还需要做出一些改变。

另外一个障碍是缺人才。如果是像颜水成这样的,以深度学习为例,中间在所有人不做的时候,他们能坚持往下做,坚持了很多年才能锻造真正大牛才具备的素质。

我们国内在80年代有大量的人做神经网络,后来基本上全转了,这个机会就丧失了,所以我觉得需要一些能够真正的大牛创造历史,这个非常重要。体制上需要我们的文化上容忍这样的存在,给一部分人可以蜇伏20年,20年之后你就成为大牛了,你要耐得住寂寞,从思想的改变上还需要这样的人。

颜水成:我想从更底层来分析这个问题,为什么有的时候数据没办法分享,有的东西大家之间为什么有一些问题,根源是我们的华人文化的造成的。

假设做某一个方向,那个人拿了很多的风投,另外一家也跟着进来了,大家想的不是大家以不同的角度建立一个更全面的生态系统,更多想的是怎么样在这个行业里面变成老大,大家需要更多想的事情是怎么把这个饼做的更大。

如何在人工智能上进行产学研互动

山世光:如何才能更好地互动起来,我觉得学术界这几年本身已经比过去开放了很多。几年前的时候说我在这个数据上做的东西,别人也可能会试一下,现在你发表一个论文,别人怀疑或者效仿的很多,这样就使得学术界在不断地开放自己的源码。大家认识到开放数据是一种贡献,这种贡献对所有领域的发展是有非常大促进作用的,学术界内部的开放数据已经做的不错了。

至于说学术界跟工业界之间,我认为国内还是存在一些障碍,从我跟别人合作的经验来看,不同的公司对这件事情的态度差异挺大的,有些公司就非常的开放,他愿意把数据给你,当然这个数据他会减少一点,至少合作者他愿意给你。但也有一些公司,你即使跟他合作他也不给你数据,我现在就有一些例子就不说了。

不管怎么说,其实这里面肯定可以找到一种方式,可以使我们工业界和学术界之间,不管是从交易的角度,还是从互相共赢的角度能找到一些方式,能够利用工业界的数据,工业界更受益于学术界的成果,这个需要时间的积累。

刘升平:我们公司口号是开放合作共赢,产学研更多是开放的心态,特别是数据的共享,对推动云知声的发展是非常重要的。合作也是各司其职,最后我们能把这个做出来,达到共赢的状态,我们现在正在推动一个开放数据的联盟,我们会跟一些高校把我们建立的知识图谱放到网上开放出来。

颜水成:我觉得可能在促进产学研结合方面,可能有一个机构,有的地方能发挥比较好的作用,比如说在国家的层面。现在学术界跟不上工业界,工业界的计算机资源比学术界好很多,这样就变成了有时候竞赛和PK不是很公平。如果要给企业松绑,让他更多的做技术,更多地往向产学研原动力推进的话,更多需要国家层面上的推动。

对于“语用计算”技术与前景的不同理解

 山世光:我不做语音处理,今天第一次听说语用这个词,我们的理解就是上下文,或者是语境非常类似的概念。深度学习不是说不可以走,只是说我们现在考虑深度学习的时候只考虑了一个模型,一个单一的深度学习。比如我们有一个人类识别方法,如果是人的话,也是这样一个深度一个模型,他其实会有很多的细胞跟这些细胞完全没有关系的,他会对这套处理产生影响。

刘升平:我想说两点,第一,我认为这块是非常重要的,我们做语音的时候没有必然要求,你只是做一个设施为什么要聊天,我觉得这是人性,人看设备忍不住跟他聊几句,这时候我的观点改变的时候,我认为聊天是一个入口,你做操控也好,问答也好,聊天是连接器,如果不能聊天这个设备就太僵化了,聊天我们会所有一个通用的入口。

从知识上来讲我的观点是这样的,就是用深度学习的框架再把各种语义的信息融入进去,我们真的可以做成这样一个语音系统,我是持乐观态度的,这个数据有可能找到。因为我们有很多文学作品,他们都在不停的对话,他对话里面是有背景信息的,他当时对话场景里面的是在爆炸,还是在下雨,这个是可以挖掘出来的。这样是有可能训练出一个机器人,他真的能理解语用、理解语境,真的能跟人对话。

   颜水成:我个人觉得大家愿意把机器人抱回家,最关键的技术是能跟他自然地对话,当前我们能看到的这个系统的话,还是有一些问题,比如你跟他对话几轮之后,好像他就把前面一些语境丢失了。系统还不是很完美,无论是工业界还是学术界还有很多事情可以做。