别闹,人工智能还不是万能的
华创资本 华创资本

别闹,人工智能还不是万能的

随着人类掌握了越来越多机器学习的算法,它们的构建方式变得越来越重要。

本文系华创资本(ID:ChinaGrowthCapital),授权i黑马发布。

随着人类掌握了越来越多机器学习的算法,它们的构建方式变得越来越重要。机器学习的基础是人类收集的数据,当人类将越来越多的控制权交给运算法则时,若不加以全面的考虑,人工智能也会像它的制造者一样充满偏见。

以貌取人是不是AI

据英国《每日邮报》(Daily Mail)报道,几位中国学者近日对外宣布,人工智能已经在面部识别上发展到新阶段:即可以通过照片推断出女性的性格。或者说,通过训练数据中的标记,人工智能可以推断出年轻人对女性“以貌示取人”的标准。

三位来自上海交通大学的研究人员通过百度搜集了3954张女性照片,他们给这些图片中的人物进行个性描述,所有这些情绪标签被研究人员分为两组:S+为“积极”范畴,包括“纯粹”、“温和”、“甜美”、“无辜”、“自然”等;S-为“消极”范畴,包括“做作”、“浮夸”、“虚荣”和“卖弄风情”等等。

86748112907334977

试验中S+级和S-级的女性图像

他们将照片分为两类以后,将这些照片输入卷积神经网络(Convolutional Neural network),其中2000张照片进入S+类别,1954张照片进入S-类别。

在把这些图片提供给神经网络之前,研究人员让22位男大学生检查并确定这些标签是准确的。这些仅从相貌得出的推断要用于训练神经网络,直到这个神经网络也可以通过相貌推断性格。

在整个3954张照片中,80%的照片用于神经网络的训练,10%的照片用于核对程序,而剩下的10%的照片用于检验这个最新的人工智能程序,最终的检验正确率达到了80%。

12月中旬,该团队在在线开源的杂志“arXiv”上发表了这一研究成果,这篇名为《对有吸引力的女性面孔的心理印象的自动推理》

(Automated Inference on Sociopsychological Impressions of Attractive Female Faces),目前还未在其他有影响力的科学杂志上公开发表。

《每日邮报》的评论表示:尽管我们承认机器确实拥有了识别人像的能力,但是一想到用相貌判断性格这个非常主观的问题,我们就觉得这个研究非常不可接受。 

罪犯的长相能不能靠机器判断?

事实上,这三位研究人员在几个月前还做出一个通过相貌判断一个人是否会犯罪的系统,当时也引起了不小的争议。

这项研究采集了1856名年龄在18-55岁之间的中国公民的照片,其中有730人是罪犯。当然,为了确保数据的准确性,这730个罪犯不包括犯罪嫌疑人,只包括那些已经被确定为罪犯的公民。

866075952005528607

用于分析的部分“罪犯”样本

这些被采集的中国公民的照片全部被输入到计算机中进行统计,计算机通过4种算法分别对这些照片里的公民面部特征进行准确的分析,根据分析得到的结果来推断出罪犯的共同面部特征:

那些嘴巴很小、嘴唇微微上翻、两眼之间距离比较近的人,他们是罪犯的可能性要远远高于其他特征的人。

这项技术得到了一些反对者的激烈指责,他们认为,这项技术只是一项最基础的研究,而且是带有偏见色彩的。如果把这项技术应用到现实世界中来进行罪犯的认证,将是一件十分荒谬的事情,因为它非常有可能错误的识别罪犯,让好人蒙冤,让真正的罪犯逍遥法外。

俗话说:人不可貌相,海水不可斗量,仅仅凭借一个人的长相,就给他扣上罪犯或者骗子的帽子,未免太荒谬了。

巧合的是,这项研究成果同样发表在“arXiv”上,到现在为止同样没有被其他专业杂志正式发表。

人工智能为什么会被公众指责?

在2016年9月举行的一项叫做Beauty.AI的选美大赛上,人工智能计算机对来自全世界年龄在18-69岁的自拍照片进行了收集,并对这些照片进行了评判。当结果公布时,似乎出现了一些意外,因为机器人根本“不喜欢”皮肤黑的人,所以,所有黑皮肤的照片都被筛掉,机器人对于黑皮肤的人存在着一些偏见,当时引起了评论的广泛不满。

328671423631974888

Beauty.AI所收集的部分女性自拍照

尽管大多数的参赛者都是白皮肤的人,但是,其中大部分的印度和非洲的黑皮肤的人提交的照片全部被筛掉了。可能因为大多数参赛者都是白人,所以人工智能算法也就默认了白皮肤的人比较好看,才导致了黑人照片被筛掉的情况。

Beauty.AI选美大赛的首席科学官Alex Zhavoronkov说:“如果在你采集的数据库中,没有足够多的不同肤色的数据,那么人工智能计算机机器人就会产生有偏见的结果。”

189280976071219412

实际中的选美比赛

所以,如果想要利用一个算法对一组数据进行识别时,如果某种类型的数据不够多,就有可能会产生一个有偏见的结果。

事实上,同样的问题已经在谷歌的“Deep Dream”实验中得到了体现。2015年6月,谷歌利用人工神经网络创造出可以识别不同图像内容并自行加工作画的“Deep Dream系统”,为互联网开拓了又一个“魔性”的时代。之所以这么说,是因为这个人工智能系统真的是被玩坏了……

319517336758750811

这幅梵高所作的《星月夜》,里面的星星和建筑都已经被各种不知名的狗、汽车、小鸟和眼镜所占据,十足一副恐怖电影的截图,这种超现代的画风简直不能再诡异了。

390551244855689002

这幅美国国旗也不能幸免,全被“Deep Dream”画成了狗、虫和人的脚,当然还少不了各种奇怪的花纹、亮斑和眼镜……看完上面这两幅图,简直想不起它们原来到底是怎样的了,简直洗脑之极!那么问题就来了,到底这个先进的具有自学能力的智能系统到底是怎样画出如此魔性的作品的呢?

谷歌自己回答了这个问题,原来,该算法是在开源的数据库ImageNet进行训练,它里面有成千上万张的狗照片,所以AI变得更容易在其他情况下识别狗模式。

已经有很多人工智能的研究者遇到很多之前不一样的问题,而这些问题到现在也没有在本质上得到解决。首先互联网的博弈性特别强,它是动态而不是静态的,这在互联网广告里体现的更加明显。此外,互联网的数据量要比语音和图像大的多,但是这种大数据的状态很模糊,实际数据反而更稀疏,应该如何解读?

回到之前谷歌“Deep Dream”遇到的问题,很多人观察过自己的孩子,他们看到动物一眼就能认出来,而之前孩子的经验可能只是从图画书上看到已经变形的动物图片,而机器目前还只能用海量的有效数据“喂”出来才能实现图像识别。

所以,在让机器变得更聪明之前,是不是应该先搞清楚人到底是怎么做到这些的?

机器 算法
赞(...)
文章评论
匿名用户
发布