美国三院院士、机器学习泰斗 Michael Jordan:以人类为中心的人工智能原理
2018-11-17 11:19 Michael Jordan 人工智能 全球 AI+智适应教育峰会

我认为我们在AI方面并不是要复制人的智能或智慧,而是要建立一个新的智能系统,不一定非得是人工智能或者人类智能。

i黑马&火柴盒讯  11 月 15 日,在雷锋网联合乂学教育松鼠 AI举办的“全球 AI+智适应教育峰会”上美国三院院士、机器学习泰斗 Michael Jordan带来了一场主题为《以人类为中心的人工智能原理:计算、统计学和经济学》的演讲。

以下为他的演讲内容,经i黑马&火柴盒整理编辑:

Michael Jordan:大家好,我非常高兴可以来到这里,这样一个话题我是非常感兴趣的,我是一个研究人员,同时也是一个教育者,我整个职业生涯都是作为教授来工作,同时我也是一名学习者,我也非常高兴有这样的机会,也非常喜欢学习,也很希望有机会跟大家一块学习。

我们现在会使用很多数据,以及学习的方法,让我们的学习更加的简单,是一个非常好的时代。今天我会谈的是互相补充的和大家来讲,比如说我们谈AI促进学习,那什么是AI?什么是人工智能?我们可以教育人工智能吗?人工智能现在可能还不是很有清楚的概念,它已经有很多年的经验,但是现在仍然在不断的变化,在接下来的几十年也会有很多变化,我们是怎么样来教育,怎么样在人工智能快速发展的时代进行更好的教育。

我认为我们在AI方面并不是要复制人的智能或智慧,而是要建立一个新的智能系统,不一定非得是人工智能或者人类智能。可以给大家举一个经济学的概念,我们会把所有的东西联系在一起,谈一下新兴的技术以及其他学科,其中包括决策、数据、人类的推理,它是一个工程的学科。数据会处于中心,其中会包括各种不同的,比如说土木工程、化学工程会有一些区别。

首先这样的一些属于“机器学习”“数据科学”“人工智能”都是一些概念,其中将计算机系统结合起来,以数据为基础。有的时候会有不同的人,会有不同的使用,但是关键就是要有数据的分析。

计算机科学怎么样进行演化呢?首先我们需要有数据,怎么样能把这样的数据进行扩展和分析,我们现在在讨论AI的时候,还有一方面经常忽略的是经济方面,把不同的元素、机构联系起来,这样才能够通过互动让我们有更好的结果。

现在在AI的世界里还没有讨论到很多这方面的内容,可能更多的是要模仿人类,经济方面会有所忽略。现在人工智能有这样一个博客是说还没有发生,我现在做的很多工作只有四五个人读了我这样的研究结果,这个论文是在一个网站上发布的,大家如果要看的话可能需要VPN。现在已经有了几十万的浏览量,讨论的AI到底是什么。

AI已经被是用在很多方面了,所以现在比较传统AI的概念就是人类模仿,怎么样来使用?我们现在还没有真正的很好的使用。如果大家认为现在已经有了这种超人式的AI的话,事实上现在并没有发生,我们还有很长的一段路要走。

过去的40年间真正发生的是智能增强,包括数据处理、数据分析,你的搜索引擎、自然语言的翻译都可以做到这些,还有推荐系统。这些都变得越来越智能,就是由于我们这些增强的技术。

我认为我们是想要建设人工智能的,而且这样的人工智能并不是要取代人类,而是让我们有一种新的方式变得更加智慧。过去的几十年间,也包括现在,我们还有智能基础设施的发展,包括很多数据、设备,数据的流动,我们会和它们进行互动。通过这些设备,在经济学的概念中我们都有自己的一个希望,想要被设备所理解,同时也想要理解他人。现在我们需要有这样的理解,同时也会做出一些妥协。

我想说一下我们现在面临的挑战,包括以下的这些挑战。事实上更多的是关于决策方面的内容,决策的不确定性。我们看到了神经科学、神经系统,我们会使用AI这样一个标签,但事实上还不够,所以需要基于这样的模式做出好的决策。怎么样来做出决策?这方面会有很多的不确定性,很多数据方面的系统,我们还会考虑多重的决策。人们可以做出不同的抉择,一个接着一个,机器可以在同时的情况下做出很多决策。比如说滴滴、Uber,每小时随时随地都可以做出很多决策,让不同的司机去接不同的乘客,这样的一些决策都是相互连接的,人类并不是非常善于做出这样同时的决策。

有两个非常重要并且相关的问题,我们怎么样教育人工智能,传统的人工智能或者新的智能增强、智能基础设施的概念。同时我们如何使用这样一些概念来教学?这两个问题是相关的,我主要介绍第一个,因为我知道很多其他大会都会关注第二个,这样就能让两个问题都迎刃而解了。

首先我想跟大家说一下我在伯克利教学的工作,我们有一个“数据8”的课,将计算思维和推理思维连接起来。我的同事教这个课的第一版,在三年前,现在我也来教授这样一门课程。这个课程是关于数据科学的基础,将计算机科学和统计学联系起来,就像机器学习一样,但是比机器学习要更广泛。

我们是教大一新生,他们刚入学的时候就会上这样的课程,当时不会有数学的教学,但是会基于计算机来进行算法和编程方面的教学。他们不需要做很多数学方面的学习,我们在加州伯克利分校每个学期都会教超过一千名学生,接下来还会有很快速的增长,现在这个课程也是在网上可以免费的让大家下载。

这是我们第一期课程的情况,这个课程非常受欢迎,有很多不同的学生,比如说男生和女生,还有来自不同背景的学生,他们都选择了这门课。我们现在在数据科学这个领域当中,希望有一些人才能够做数据又能做计算机。我们也发现之前的科学家他们都会说,大家都应该学习一些计算机的技术,我觉得这个观点是有点狭隘的,大家学的应该不仅仅是编程,应该学习一些比较基本的计算机能力和统计学的能力。我们会使用抽样和再抽样来自统计学的观点,把它们引入到计算机当中。在伯克利也有相关的领军性的人物,比如说通过这样的程序我们就能够提供一些比较特殊的软件,来帮助我们进行网页的检索和浏览。我觉得不仅仅是编程,还有其他人工智能方面的概念。

我是一个统计学家,我个人对这个观点比较感兴趣,我们要发现数据背后其实隐藏着很多东西,我们首先要知道数据来自于哪里。我们要检索数据背后的真实世界当中的源头,这是我在计算机科学世界中学到的东西。

我们应该怎么去做呢?我们不仅仅要教编程、统计学,有时候要把两者结合起来。我们看到编程课程,要学习一些专业的语言、词汇和术语,我们也要做一些抽样,有些抽样结果不是特别好。比如说有些想法是几百年之前产生的概念,有很多计算机科学当中的概念他们比较难以理解,这就是为什么一般人们不太想使用计算机科学使用里面太多抽象的东西。但是我们发现它对世界的影响是非常大的,尤其是这门课程。

给大家举几个例子,A/B测试,比如说在计算机科学行业当中我们往往会做这样的测试,有些计算机专业学生不会做这样的测试,因为它有关统计学。A/B测试是什么呢?我们首先了解一下,它是对比了两个情况。比如说有两列,每列是1万名学生,有对照组和实验组,会将两组进行对照。我们会有网页,会对比访问前和访问后的状况,所以我们会发现,在这个过程当中有非常多的问题,上百万个问题,如果我们看到两列人,两列的情况,会发现他们有一些不一样的地方,所以很有可能再次重复两者的不一样。

我们要给网页做一些改变,再针对实验组做一些处理,就涉及到了我们现代的统计学,有关于计算能力,当然下一页会具体解释一下,我觉得新生都可以了解,而且可以落实或者自己用这样的方法。这个方法到底是什么呢?比如说我们有两列数字,统计学家会这样去想,如果这两列完全一样的话是什么样的,期望是什么。如果两列一样的话就变成一列,就是2万个数字了,分布依然是一样的。既然两列数字没有什么不一样,我们就放在一列当中,就把数字进行混合,混为一列,再把它放在两个柱子当中。

我希望这两列数字当中进行随机的分布,再混合,再进行分开,再混合,我会做一个直方图,展现这两列的差别,这就是一个自然变换的过程。我会在分不中计算出自然差异到底体现在哪里,就是我如何计算我的自然差异,以及在数字当中的位置,这就是我们进行A/B测试的方式。当然有些人会觉得这个测试比较无聊,但是在这个过程中你可以教大家一些知识,这样学生会更有兴趣一些。所以在这个过程中他们会学到数学,而且在这个过程中会获得很多真实的数据,这些数据让人觉得非常兴奋。

我再给大家举几个例子,我们做了很多项目,当然我个人并不觉得这是非常标准的计算机的课程,它们在美国却是非常流行的。这个例子是推理和隐私,大家知道我们对待数据要非常小心,尤其是涉及到隐私问题的时候,我们需要用数据做一些好的事情,要让数据非常保密。有时候我们就要给数据进行加密,我们就要进行推理。比如说我们要管理这样一个权衡,数据隐私和数据使用之间的权衡。我们会有隐私差别量化的方式来帮助我们进行保护,这是一个比较新的技术。

比如我们用一个数据库可以进行数据库的隐私化,我们会把隐私化后的数据和原来的数据进行比较,我们发现再一个例子当中,查询后的数据跟查询前的数据的差别是非常小的。给大家举几个例子,是计算能力思维方面的例子。我觉得这个想法非常重要,它能够帮助我们进行现实世界当中的推理。

我们首先要进行数据的处理,而不是我们立刻要挖掘数据背后到底是什么。比如说我们现在有很多数据,有一个名单,这个名单包括人的名字以及他们居住的地方。这是银行的数据,我们就能把他们进行隐私处理。当然对这些数据来说,我也可以用这些数据做其他相应的隐私化的处理。统计学家会说,数据背后到底隐藏着什么?我们如何集成这样一些数据?

比如说在医疗数据方面我们也有相关数据库,包括人的年龄、寿命以及他们在什么时候获得什么样的治疗,这是非常典型的医疗数据。我就想对这个病人的数据进行隐私化,我只能关注到数据库中的人。银行的例子也是,我只能关注到我客户的隐私,有些人可能是我们的客户,也有人不是我们的客户,所以他们的数据就不能进入到我的样本当中。

在我的样本当中有些客户之后也不是我的客户了,但是在医疗数据当中我可能会根据这些数据记录,什么时候给病人用什么样的药,这些都在我们的隐私数据当中。我觉得这是一种数据化的语言,它是一种非常基于计算机的一种想法和思维模式。

我们可以在人口当中做一个查询,查询之后我们就能获得数据,这往往是统计学家做的一个事情。我们要确保我们既能够回答这个问题,又能够进行隐私化,就是我们又能用数据做相关的事,又能确保数据的隐私化,我觉得这是我们要做的统计学和计算方面的课程,就是使用数据的同时又能确保数据的隐私性,又能做一些好的事情,又能遵从一些好的原则。

我们在教授这些想法的时候,会把这些想法用课程给它们传递出去,所以我们会发现在不同的项目当中会有一些相似点。在美国会有陪审团,他们往往会从人口中、居民中随机抽样,我们可以看到陪审团来自不同的民族,来自不同的年龄等等,所以这跟A/B测试是一样的,学生会觉得这样的测试非常有趣,因为他们可以用A/B测试的方式进行陪审团的选取,这也是会影响到我们政策制定的。

还有歌词的分类,到底是嘻哈音乐还是乡村音乐,这是分类的问题,也是跟A/B测试有关的。

除了核心课程之外还会有附加课程,我们称为“连接者”课程,会教给不同专业的学生。他们会有特定的领域,比如说他们会关注于社会学或者关注于基因遗传学等等,我们也会对这样的课程做一个网络。比如说在第一年的时候我们就会有类似于屏幕上的连接者的课程,这些课程也会变得越来越流行,我们要教授一些核心想法,也要把核心想法、核心课程跟一些不同的学科进行跨学科的合作。所以我觉得这些数据科学是触及到很多不同学科的,尤其是会关注到人工智能。

人工智能到底是什么呢?我个人觉得比如说11岁的孩子的人工智能往往是超过计算机的,计算机还没有那么聪明,他们只是利用数据模仿人的智能,但是计算机当前并没有这么的智能,我们要把计算机变得更加智能,要让计算机去模拟人的大脑,这也是AI当前做的一些事情,但是我觉得这并不是AI的主要目标。

还有其他人工智能的系统,比如说从火星看地球,人工智能的概念到底是什么?人类的智能肯定是智能中的一种。比如说在北京每天会有很多饭店,他们会进很多的食物,一年365天他们都这样发生着。在采购食物的过程中就有很多决策要做,比如说采什么样的蔬菜、肉类等等,所以就需要有很多智能的投入才能做出这样的决策。我们想要模拟人的智能的话还是非常难的,但是我们可以模拟经济系统,因为其实经济系统也是非常智能化的,这样就能把经济的理论应用在计算机中去。

现在计算机获得了很多数据,能够创造一个新的市场,但大多数情况下是要给人提供服务的,这样能够有更好的广告营销赚更多的钱,有的时候人们花了钱之后服务不是很好,比如说你去百度,为查询付5美金,人们可能就不开心,所以一般我们进行查询的时候、搜索的时候是不付钱的,但是商家要打广告就要付钱了。未来的搜索引擎会创造出一个新的市场,这样人们会有更大的意愿参与,获得更大的价值。

我给大家举一个例子,人类的创意事实上还没有进入到市场的概念。现在已经有越来越多的人使用他们的电脑做音乐,比如说自己有本职工作,周末的时候做一点音乐,上传到网络上。其他的一些收益就没有了,可能就会再回到本职工作开出租车。现在有越来越多的人在听音乐,也有一些人把这样一些音乐做成数据流给到听众,这些人会盈利。事实上真正的市场规则应该是做音乐的人和听音乐的人有一些经济联系,但是现在没有这样的联系,这样的连接应该创造一些价值。

我们该怎么做呢?我们可以建立一个市场,有一点复杂。首先我们对于这些做音乐的人来说可以有这样一个表,可以知道一周之内有什么人听了他们的音乐,比如说这个城市有一万人听我的音乐。有了这个数据之后我可以使用这个数据,可以在成都做一场音乐会,因为我知道这里有人听我的音乐,可以挣到钱,如果每年做几次,这就是固定收益了。很多人在网络上听我唱歌,现在可以在现场听,你喜欢我的音乐,我也可以报个价格,在你婚礼上唱歌,这也是非常喜欢的事情,你非常喜欢我,我到你婚礼上唱歌,我也可以挣点钱,这是市场上的事情,可以有很多价值创造出来。

但是现在我们并没有这样做,没有把这样的人联系起来,生产者和消费者没有被联系起来。可以想象,比如说有100万人在中国,他们可能通过这样的方法成为音乐家,但是没有真正的收益,在全球也是如此。所以现在有很多人如果能够创造出这种市场的话,而不是只提供服务,或者是一个社交网络,就会有更多的收益。

我相信这不光是在音乐方面,在很多其他方面都是如此。个人服务、信息服务等等,比如说我七点回到家,可以有人给我做饭。我在家了有没有人给我做饭呢?没有这样的服务。如果有的话,我可以给你点钱,每天给我做饭,这都是可以的。

最后几分钟跟大家说一下不同建议的过程,我们找到一个服务,做出一些建议。在这样的过程中没有经济的参与,只是在不同的人中做不同的决策。有这样一个经典推荐的过程,你是去找到一个客户,有跟客户类似的话,就可以把同样的建议给到这些客户。他们的决策都是独立的,所以我们可以想象一下,比如说亚马逊或阿里巴巴向大家推荐电影,现在有两个人或者有两千个人,给大家推荐同一部电影,大家觉得有问题吗?没有问题。我可以把电影推荐给大家,没有问题。如果我把同一本书推荐给两万人甚至二十万人,我认为这个书是好书,我给大家推荐,有问题吗?可能也没有问题。我现在可以很快的来复制这个书,两三天就可以做完,也没有问题。如果我把同一个餐厅推荐给大家,并不是说一个城市中的一系列餐厅,比如说之前我没来过上海,我就点一个键,七点我来了,现在有点饿,如果周围所有的饭店都能看到我,他们会说我们是四川菜,我们是上海菜,我们可以给你做这样的菜,你愿意来吗?我可以在手机上看到这个饭店不错,挺近的,四川菜我还挺喜欢的,我就去你的餐厅,这是真正的建议系统,我觉得是非常有价值的。这样一个系统不会把同样的餐厅推荐给100个人甚至1000个人,它也是个个性化的过程。

我们把同样一条街推荐给同一个司机可以吗?比如说在机场外部给大家推荐一条路,如果大家都走这条路的话,那就不是一个路了,而是交通拥堵。我推荐一只股票给大家,这样可以吗?比如说我就让大家买腾讯,这可能会引发股市上的一些问题。所以这样的一些原则是可以适用在经济学的,过去几十年我一直在学习这样一些原则如何来应用。

我希望大家觉得我这样的报告非常的有意思,我现在也要给大家进行一个小结,在AI和教育方面有什么联系,如何将二者联系起来?当然现在AI确实在改变所有的事情,改变数据,改变我们的生活方式,但是我们不应该仅仅用传统的方法让它进行人工智能进行复制。现在我们可以有一种全新的方法,全新的AI,我觉得这是我们应该想的问题,谢谢大家。

关注“火柴盒”  触摸教育产业未来