起底特朗普幕后的大数据黑手
2017-02-20 15:59 特朗普 大数据

你也许不关心特朗普当上了美国总统,但必须知道他是如何当上美国总统。因为他用的那一套工具,今后将影响到我们每个人的生活,哪怕是远在地球另一端的中国。

本文由造就(微信ID:xingshu100)授权i黑马发布。

去年11月9日早上八点半,米哈尔·科辛斯基在苏黎世桑内霍斯酒店醒来。这位34岁的研究员要在苏黎士联邦理工学院做讲座,话题是大数据和数据革命的危险性。科辛斯基经常在世界各地举行此类讲座。

他是心理测定学领域的顶尖专家——这是一个由数据驱动的心理学分支。那天早上,他打开电视,看到震惊世界的消息:跟所有主流数据机构的预测相反,唐纳德·J.特朗普当选了美国总统。

科辛斯基久久凝视着电视里的庆祝活动,以及各州陆续揭晓的选举结果。他有一种预感:大选结果可能和他的研究有关。最后,他深吸一口气,关掉了电视机。

同一天,之前还默默无闻的一家伦敦公司发布新闻稿称:“特朗普大获全胜,我们革命性的数据驱动型传播在其中扮演了不可或缺的角色,我们为此激动万分。”这家公司叫做Cambridge Analytica,其CEO是41岁的亚历山大·尼克斯(Alexander James Ashburner Nix)说,此人向来以穿着一丝不苟而著称。另一个鲜为人知的事情是,除了特朗普的线上竞选活动,该公司在英国脱欧运动中也扮演了重要角色。

沉思的科辛斯基,衣冠楚楚的尼克斯,还有一脸坏笑着的特朗普——这三人一个是电子革命的推动者,一个是执行者,剩下那个是受益者。

大数据有多危险?

这五年来,只要你生活在地球上,就一定听说过大数据这个词。大数据就是说,我们所做的一切事,不论在线上还是线下,都会留下数字脚印。每一次刷卡购物,每一次网络搜索,手机上的每一次点击,乃至社交网络上的每一个点赞,都会被记录下来。

有很长一段时间,我们都不太清楚这些数据的用途——只是有时,在搜过“高血压”一词后,降压药广告就会紧紧跟随在你浏览的网页上,但仅此而已。

11月9号那天,大数据所带来的巨大效益开始浮出水面。特朗普在线竞选活动的背后,就有这家叫做Cambridge Analytica的大数据公司。在英国脱欧运动的早期,它就曾服务于Leave.EU组织。

要理解美国大选的结果,以及政治传播的未来,我们还得从2014年的剑桥大学说起。事情发生在科辛斯基的心理测定学中心。

心理测定学有时又称心理风貌学,专注于心理特质的测量,比如性格。上世纪80年代,有两组心理学家开发了一种模型,名为“五大性格特质”。

它们是:开放性(你对新的经验有多开放?),尽责性(你有多完美主义),外向性(你有多合群?),亲和性(你有多体贴、多愿意配合?),神经过敏性(你有多容易不开心?),统称“OCEAN”。

基于这些维度,我们可以对每个人作出相对准确的评估。这包括他们的需求、恐惧和行为方式。五大性格特质已成为心理测定的标准手段。

但长久以来,这种办法都有一个问题,即数据收集的难度——需要让被调查者填写一份涉及隐私的复杂问卷。之后,互联网诞生,继而是Facebook,再接着,科辛斯基这样的学者出现了。

米哈尔·科辛斯基

2008年,还在华沙念书时,米哈尔·科辛斯基迎来一个转机。他被剑桥大学心理测定学中心录取,它是全球同类机构中历史最悠久的一家。最开始,是他的同学大卫·史迪威(David Stillwell,现在是剑桥大学商学院的讲师)发布了一个小小的Facebook应用,那时候的Facebook还没有成长为如今这头巨兽。

发布一年后,科辛斯基加入其中。这个应用名为MyPersonality(我的性格),用户可用其填写心理测定问卷,其中有五个问题就来自五大性格特质问卷(“我很容易慌张”,“我爱跟别人唱反调”等)。根据这些评估,用户们可以得到自己的“性格风貌”,五大性格特质分列其上。用户还能选择是否将Facebook个人主页的数据分享给研究人员。

科辛斯基原以为,能从同学那儿回收几十份问卷就已经很好了,但没过多久,成百上千、乃至数百万人都对该应用敞开了心扉。突然之间,这两位博士生就拥有了结合Facebook个人主页数据和心理测定学分数的最大数据集。

后来几年,科辛斯基和同事们又开发了一种手段,说来十分简单。首先,他们以网络调查的形式,向十名被试提供问卷。通过他们的回馈,这些心理学家们计算出五大性格特质的分值,然后将结果与被试的各类网络数据加以对照:他们在Facebook上“赞”过、分享过或发布过什么,或他们列明的性别、年龄、住址等。这样一来,研究人员就可以对号入座、描绘出一个人的性格风貌了。

根据人们在网上的举动中,这套分析法能作出准确的推断。举个例子,“赞”过化妆品牌MAC的男子相对更有可能是同性恋;最准的同性恋预测指标之一,是喜欢“武当帮”这个嘻哈乐队。Lady Gaga的歌迷最有可能是外向者,给哲学点过“赞”的往往是内向者。

单独起来,这些信息都不足以提供可靠的预测,但一旦将成百上千的个人数据点整合起来,预测结果就可以十分准确。

科辛斯基和团队孜孜不倦地完善着他们的模型。2012年,科辛斯基证明,基于一名Facebook用户的68个“赞”,该模型可以预测出用户的肤色(准确率95%)、性取向(准确率88%),以及该用户是支持民主党还是共和党(准确率85%)。

但模型的能耐并不止步于此。用户的智力、宗教信仰,以及烟酒、毒品的使用情况,这些都可以被预测出来。通过这些数据,它甚至能推断用户的父母是否离异。

从这些预测中,我们就能看出这个模型的厉害。科辛斯基没有停止过改进的脚步:没过多久,他就能凭借Facebook上的十个“赞”,赛过某个人身边同事对此人的了解;70个“赞”就足以赛过好友;150个赞赛过父母;300赞赛过另一半。再多一点的话,甚至可以赛过一个人对自己的了解。

这些结果发布的那一天,科辛斯基接到两通电话。一通威胁要起诉他,另一通则是工作邀约。滑稽的是,两个电话都来自Facebook。

没过几周,用户在Facebook上“赞”过的内容就变成了默认不可见。在此之前,你“赞”过哪些内容是默认全网公开的。

但这可难不倒数据收集者们:科辛斯基始终都会事先征求Facebook用户的同意,但如今很多应用和网络调查都要求访问私密数据,以此作为提供性格测试的条件。(如果你想分析一下自己 “赞”过的内容,可以上科辛斯基的网站,然后将结果与经典OCEAN问卷相对照,比如剑桥心理测定学中心的问卷)。

但他们研究的不光是点赞记录,也不仅限于Facebook:如今,科辛斯基和团队可以仅看一个人在Facebook上发布的照片数(一个很好的外向性指标),就评估出他们的五大性格特质。但即便不在上网,我们其实也在透露各种信息。

举个例子,手机上的运动传感器能暴露出我们的移动速度和位移(与情绪稳定性相关)。科辛斯基说,我们的智能手机本身就是一份庞大的心理问卷,我们在有意无意之间,一直在填写着这份问卷。

更重要的是,反过来也行得通,而且这才是关键:我们既可以从数据中得出一个人的心理风貌,也可以反过来,用这些数据搜寻特定心理风貌的人群:比如所有坐立不安的父亲,所有愤怒的内向者,乃至于所有摇摆不定的政党支持者。

说白了,科辛斯基发明了一种“人肉搜索引擎”。他开始看到这项工作的潜力,但也逐渐意识到它固有的危险性。

对他来说,互联网一直都是上天的恩赐。他真正想做的是回馈和分享。既然数据可以复制,何不让所有人都从中受益?这是振奋一整代人的想法,是一个新时代的开端,它超越了物理世界的限制。

但科辛斯基不禁疑惑:若有人滥用他的搜人引擎,用它摆布他人,结果又会怎样?他开始在大部分研究中加入警示语。他警告称:这种方法“可能会对个人福祉、自由乃至生命构成威胁”。但似乎没人理解他的语重心长。

那一阵子,也就是2014年初,心理学系有一位年轻的助理教授名为亚历山大·高根(Aleksandr Kogan)。他找到科辛斯基,说有一家公司对科辛斯基的分析方法感兴趣,并想访问MyPersonality的数据库,让他代为询问。但受到保密协议的约束,高根不能透露这些数据的用途。

起初,科辛斯基和团队考虑接受邀约,因为这样一来,中心就能获得一大笔钱,但随后,他犹豫了。

最后,科辛斯基回忆说,高根披露了这家公司的名字:SCL,全程战略传播实验室。该公司的网站上写着:“我们是首屈一指的竞选管理机构”。SCL基于心理学建模,提供市场营销服务,核心焦点之一:影响大选。影响大选?科辛斯基惴惴不安起来,他继续翻看网页——这究竟是家什么机构?这些人都在谋划些什么?

当时的科辛斯基并不知道,SCL是一群公司的母公司。至于SCL和旗下众多分支的老板是谁,人们并不清楚,因为企业结构错综复杂,跟英国公司注册局、巴拿马文件和在特拉华州注册的公司名册类似。

SCL的一些子公司曾涉足乌克兰和尼日利亚等国的大选,帮助尼泊尔君主打击反政府组织,有的则帮北约影响过东欧和阿富汗居民。2013年,SCL分拆出一家新公司,涉足美国大选,这家公司就是Cambridge Analytica。

科辛斯基那时候对此一无所知,但他有一种不好的预感。“事情开始让人反感。”他回忆说。经过进一步的调查,他发现,亚历山大·高根秘密注册了一家公司,与SCL做生意。

有赖于2015年12月英国《卫报》的一篇报道,以及《杂志》期刊拿到的公司内部文件,事情才渐渐浮出水面:SCL从高根那里了解到了科辛斯基的研究方法。

科辛斯基开始怀疑,高根的公司可能抄袭了他基于Facebook点赞记录的五大性格特质测量工具,并将其卖给了这家影响大选的公司。科辛斯基立刻与高根断绝联系,并向中心主任汇报情况。这在大学内部激起了错综复杂的矛盾冲突。

最后,亚历山大·高根后迁居新加坡,在那里成家,并改姓斯派克特(Dr. Spectre,直译为“幽灵博士”)。米哈尔·科辛斯基则读完博士,接受了斯坦福大学的工作邀约,移居美国。

“脱欧先生”

过了一年风平浪静的时光。到2015年11月,两个脱欧组织中相对激进的一个,即奈吉尔·法拉奇(Nigel Farage)支持的“Leave.EU”,宣布将网络宣传委托给了一家大数据公司,这家公司正是Cambrige Analytica。其标榜的核心实力叫做“创新型的政治营销”。它基于OCEAN模型,通过数字脚印测量人们的性格,从而实现“微定向”传播。

从那以后,科辛斯基常接到电子邮件,质问他在其中扮演了什么角色——一提到剑桥、性格和分析这些关键字,很多人立马就想到了科辛斯基。他说,他也是第一次听说有这家公司。惶恐之余,他查看了这家公司的网站,心里疑惑:他的分析方法是否被大规模运用,并服务于政治目的?

在脱欧结果出炉后,亲朋好友纷纷写信给科辛斯基:瞧瞧你干的好事!不论去哪儿,科辛斯基都得解释一遍,他跟这家公司没有半毛钱关系。(至于Cambridge Analytica在英国脱欧运动中涉足多深,我们不得而知。)

事情平息了几个月。2016年9月19日,也就是美国大选日前一个月,在纽约君悦酒店的深蓝色大厅,康科迪亚峰会正在这里举行。它就好比微缩版的世界经济论坛,世界各地的决策者受邀而来,其中就有瑞士总统约翰·施奈德·阿曼。

“让我们欢迎Cambridge Analytica首席执行官亚历山大·尼克斯上台”。一个清亮的女声引荐说。一位身穿黑色西服的苗条男士走上讲台。观众席安静了下来。与会者中很多人都知道,他就是特朗普新雇用的数字战略主管。

在那几周前,特朗普曾经在Twitter上神秘兮兮地说:“很快,你们就会叫我脱欧先生。”政治观察者们也确实对照过特朗普和英国的脱欧运动,看到了两者议程的惊人相似。但很少有人注意到这与Cambridge Analytica有关。

亚历山大·尼克斯

在Cambridge Analytica参与进来之前,特朗普的数字竞选活动基本就靠一个人:布拉德·帕斯凯乐(Brad Parscale),一名市场营销创业者,创办过一家企业,但以失败告终,他收1500美元,给特朗普建了个最最基本的网站。

70岁的特朗普对网络、数据这些玩意基本是一窍不通,办公桌上连个电脑都没有。据他的个人助理透露,他都不会用电子邮件,就连智能手机,也是在助理的劝说下才学会的,他在网络上发的推文都是用手机写的。

另一方面,希拉里·克林顿反而是对奥巴马在社交媒体上最拿手的那一套活学活用。她掌握民主党的地址簿,与BlueLabs最前沿的大数据分析师合作,并得到谷歌和DreamWorks公司的协助。

2016年6月,特朗普雇用Cambridge Analytica的消息公布后,华盛顿的老油条们嗤之以鼻——一个老外能读懂美国和美国人民?开玩笑!

回到前面说的康科迪亚峰会。亚历山大·尼克斯发言时说道:“今天很荣幸来到这里,和大家谈谈大数据和心理风貌在选举中所能发挥的力量。”在他身后则是Cambrige Analytica的徽标——一个由网络节点构成的大脑,仿佛一幅地图。“18个月前,美国参议员克鲁兹还算是人气较低的一位候选人,听说过他的人还不足40%,”这个金发男人解释说,“看看他后来的人气,他怎么办到的?”

尼克斯解释说,到目前为止,竞选活动的组织架构依照的是人口统计学概念。“这个想法很荒唐:所有女性收到的消息都一样,或者所有黑人收到的消息都一样。”尼克斯的意思是,虽然到目前为止,其他竞选阵营都仰赖人口统计学特征,Cambridge Analytica却独辟蹊径地使用了心理学指标。

尼克斯切换到下一张幻灯片:五张不同的脸,每张对应一种性格风貌。这就是五大性格特质,或称OCEAN模型。“在Cambridge,”他说,“我们建立了一个模型,可预测美国每个成年人的性格。”

按照他的介绍,Cambridge Analytica 的核心优势就在于它结合了三大行为科学:OCEAN模型、大数据分析、定向广告。首先,Cambridge Analytica从各类不同来源处购买个人数据,比如土地登记信息、汽车数据、购物数据、优惠券、俱乐部会员,你读什么杂志、上哪个教堂等。

幻灯片上展示了各数据经纪商的徽标,它们都活跃在全球范围内,如Acxiom和Experian——在美国,几乎所有的个人数据都可供买卖。

举个例子,如果你想知道犹太裔女性都住在哪些地方,你就能买到相关信息,其中包含电话号码。而Cambridge Analytica将这些数据与共和党的选民名册以及网络数据相聚合,计算出五大性格特质构成的性格风貌。原先的数字足迹,一下子变成了具体的个人,他们有担忧、有需求、有兴趣,还附带住址。

这个方法和米哈尔·科辛斯基当初开发的方法十分类似。尼克斯告诉我们,Cambridge Analytica还使用“社交媒体调查”和Facebook数据。就连科辛斯基警告的事,他们都做了。“美国2.2亿成年人,每个人的性格风貌都被我们勾勒了出来。”尼克斯骄傲地宣称。

他打开截屏。“这是我们为克鲁兹竞选活动准备的数据操作面板。”屏幕上出现一个数据控制中心。

左边是图表;右边是爱荷华州的地图(在该州的初选中,克鲁兹意外获得大面积的胜利)。地图上有无数个红色和蓝色的小点。

尼克斯一步步缩小范围:先是去掉红色表示的民主党支持者,剩下“共和党支持者”,继而锁定“未决选民”,又消失了一批点;再锁定这些人中的“男性”……最后,地图上只剩下一个名字,年龄、住址、兴趣爱好、性格特质和政治倾向一应俱全。

到了这一步,Cambridge Analytica又该如何用恰到好处的政治宣传,有针对性地拉票呢?

亚历山大·尼克斯在2016年的康科迪亚峰会上

尼克斯以枪支拥有权、美国宪法第二修正案为例,展示了按心理风貌分类的选民该如何区别对待:“对一群情绪极不稳定的受众,你就抓住入室抢劫威胁和枪支带来的安全感这两点做文章。”左边是一张图:夕阳下的田野中站着父子两人,各自端着枪,似乎是在打野鸭。

“相反地,如果是(对新经验)较为封闭,亲和性又高的受众,他们看重的则是传统、习惯和家庭。”

如何阻止希拉里支持者去投票

特朗普明显的前后不一致、备受批评的反复无常,以及由此导致的种种矛盾论调,突然成了他最宝贵的资产:对每一个选民,他的宣传方式都不尽相同。2016年8月,数学家凯西·奥尼尔(Cathy O’Neil)就观察说:特朗普的举动就像是一个彻头彻尾的机会主义算法,其计算结果随着受众的反应而变动。

“特朗普传达出的每一条讯息都是由数据驱动的。”亚历山大·尼克斯说。在特朗普和希拉里展开第三场总统辩论时,其竞选团队就拿他的基本立场,在Facebook上测试了17.5万个不同的广告版本,以找到最合适的版本。

不同版本的差别大多都只是细节,如标题、颜色等,或加照片,或附视频,但这样可以有针对性地,将心理影响的效果最大化。这样的微调一直精确到最小的群体,尼克斯在一次采访中透露:“我们可以对一个村庄或小区,乃至一个个人,进行有针对性的宣传。”

比如在迈阿密的小海地,特朗普竞选团队就向当地居民宣传:海地地震之后,克林顿基金会是如何行动不力。这样就断了他们给希拉里投票的念想。

这就是他们的目标之一:让潜在的希拉里支持者(包括摇摆不定的左翼人士、黑人,以及年轻女性)放弃投票。大选前一周,一位高级竞选官员在接受彭博社采访时,称此举为“抑制”战术。

这些Facebook广告帖又称“暗帖”(dark posts),只有符合具体特征的用户才会看到。比如,黑人用户就会看到这样的一些视频:在视频中,希拉里称黑人男性为“掠夺者”。

在康科迪亚峰会上,尼克斯宣在演讲最后放话说,传统的地毯式广告已寿终正寝。他说道:“等到我们的孩子辈长大时,他们肯定是无法理解现在这种漫灌式的宣传模式。”

在当时,特朗普的数字军团的定向宣传到底将分析精细到了何种程度,我们无从得知。因为这些竞选宣传,多数是投放在社交媒体或数字电视上,以有针对性的方式加以传播,很少展示在主流电视上。结果是,希拉里团队基于人口统计学对宣传效果进行预估,误以为自己占了上风。

特朗普竞选和英国脱欧运动都用到了一个应用:Groundgame。这是一款选举拉票应用,结合了选民数据和“地理空间可视化技术”。

另一方,特朗普团队的线下宣传也是高度以数据分析为导向:2016年7月,特朗普的拉票队配备了一款应用,可以鉴定某户居民的政治观点和性格类型。当初,脱欧运动的宣传员用的也是这个。

针对每户人家对特朗普宣传的接受程度,应用都有一个评定,只有对那些会接受特朗普讯息的人家,拉票员才会去敲门。拉票员们配有对话指南,按照居民的性格类型,进行有针对性的宣传,再将反响回馈给应用,这些新数据则回到特朗普竞选团队的操作界面上。

虽然民主党也采取了类似的举措,但是却没有心理测定学分析这件杀手锏。Cambrige Analytica将美国人口划分为32种性格特质,并只将17个州作为重点。

科辛斯基曾发现,喜欢MAC化妆品牌的男性相对更有可能是同性恋,同样的道理,Cambrige Analytica则发现,倾向于购买美国本土汽车的人更有可能投票给特朗普。

综合起来,这些发现告诉特朗普,哪些宣传信息在哪些地方最为管用。大选进入最后几周时,特朗普团队转战密歇根和威斯康辛,这正是基于数据分析而做出的决定。

接下去,等待我们的将是什么?

心理测定学方法对美国大选造成了何种程度的影响?对于这个问题,Cambridge Analytica不愿提供任何证据,以证明其竞选活动的效用。而且,很有可能的情况是,这个问题根本无解。

Cambridge Analytica的客户中就有一个是美国国务院,据报道,该公司还与英国首相特丽莎·梅(Theresa May)频频沟通。

不少人宣称,统计学家们输了大选,因为他们的预测大错特错。但说不定统计学家也促成了特朗普的胜利呢?只不过特朗普的那一拨人采用了新的方法。对科学一窍不通甚至敌视科学的特朗普,却在竞选中仰仗尖端科学方法取胜,真可谓历史的讽刺。

另一个大赢家是Cambridge Analytica。其董事会成员史蒂夫·班农(Steve Bannon)已被特朗普任命为高级顾问兼首席战略师。据报道,Cambridge Analytica还与英国首相特丽莎·梅频频沟通。该公司不愿就此发表评论,但尼克斯称,他正在全球各地培养客户群,收到过来自瑞士、德国和澳大利亚等地的咨询。

目前,他的公司正在欧洲巡回参会,展示他们在美国取得的成果。欧盟的三个核心国家——法国、荷兰和德国——都将在今年迎来大选,而且这三国的民粹主义政党势力都在重新抬头。在选举领域取得的成功来得也正是时候——该公司正在筹备挺进商业广告领域。

科辛斯基坐在斯坦福的办公室中,观察着这些进展。美国大选过后,斯坦福大学一片哗然。面对这些新进展,科辛斯基和同事桑德拉·马茨(Sandra Matz)一道,展开了一系列测试,很快就会发表。

初步结果十分骇人:研究证明,若将产品和营销信息跟消费者的性格特质相匹配,营销者最多可增加63%的点击量和1400多条对话。性格定向的威力从中可见一斑。

研究还进一步证明了性格定向的可扩展性:他们发现,大多数推广产品和品牌的Facebook页面都都受性格定向的影响,基于一个Facebook页面,我们就能准确定向大量消费者。

世界被翻了一个个儿。英国要离开欧盟了,特朗普当上了美国总统。

而在斯坦福,早早就担心政治活动滥用心理定向,并为此大声疾呼的科辛斯基,又一次开始收到谴责他的电子邮件。

“不,”科辛斯基摇摇头,轻声说,“这不是我的错。这个炸弹不是我造的。我只是提醒了大家它的存在。”