人类行为的80%是可以预测的
2012-10-25 17:40 巴拉巴西 人类行为

如果说塔勒布认为人类行为是随机的,都是小概率事件,是不可以预测的,全球复杂化网络权威巴拉巴西则认为,人类行为93%是可以预测的。

口述/艾伯特-拉斯洛.巴拉巴西

整理/本刊记者 史翔宇

  哈桑是一个艺术家,我们可以把他看作一个多媒体艺术家。“9·11”之后,哈桑身上发生了一些有趣的事情。哈桑经常到世界各地旅行,在结束非洲的旅行后,他回到美国却在机场被底特律的联邦调查局带去审问。审问过程持续了半年,最后,哈桑在测谎仪的帮助下证明了自己的清白。他在联邦调查局里待了几千小时,虽然没有被真正逮捕或是被正式提出控告,但他却为解释自己的行为而精疲力竭。事实上,他被逮捕的原因非常简单,因为他正好在“9·11”之后关闭了他在佛罗里达的储存箱,所以那个储蓄箱的主人认为:在“9·11”之后,在有军事训练的佛罗里达州,一个名叫哈桑·伊拉希的褐色皮肤的人……

  出于这些原因,他被联邦调查局调查了6个多月。但最有趣的不是发生在他身上的这件事,而是哈桑对此事的反应。在一次又一次地被叫去联邦调查局谈话之后,哈桑被要求要时时汇报自己的行踪。对方称这是为了哈桑着想,以便他能顺利返回美国。于是,哈桑决定将自己的行踪完全公开。哈桑给自己建立一个网页,只要进入页面,就可以精确地看到他每一刻都在做什么。人们可以看到他在哪里,他所在地的景色;人们不只可以看到他现在在哪,还可以看到他过去的六七年都到过哪里,甚至可以看到他吃过的每一顿饭、出入的每一个洗手间,支出的所有开销,坐过的所有航班的航班号,几乎他的一切行踪都展示在这里。

  现在,您可能理解为什么我们觉得这很有趣了,因为他选择将自己的所有行为公开,所以所有人都可以知道他在干什么。他选择向所有人公开自己的行踪使得他的信息失去了价值。因为信息的价值取决于它的有限性,即有的人知道有的人不知道。如果人人都能得到这个信息,那这个信息的价值也就下降了。哈桑认为如果公开了自己的行为,那对于联邦调查局来说,他的信息就失去了价值,并且他也算帮助联邦调查局跟踪了自己的行为。而结果是,我们都可以掌握他的行踪。

  这个故事是本书第一条主线,我做的第一件事就是分析哈桑的行动轨迹和习惯,并将关于他的数据和其他成千上万的个体做对比,以分析他的行为是特别的还是和他人并无大异。他被逮捕的原因就是不规则的旅行模式,所以我们想分析联邦调查局逮捕他到底有没有意义。而我们对哈桑的分析确实得出一些有趣的结论,这个结论在书尾才得以揭晓。

  有关人类行为的统计有很重要的意义。这些数据该如何利用呢?作为一个自然科学家,套用我对自然现象的理解,就会得出:人类是可以被解析、描述、量化,并且是可预测、可控的。这显然是一个令人非常恐慌的陈述。

  在对人类行为的预测方面,我们拥有大量数据的支持。我们发出的每封邮件都留下个人社会关系、爱好等线索。银行了解我们的支付能力、品位、购买意愿及购物地点。虽然我们常常选择不去想这些,但我们已经将自己放在记录事实的多倍显微镜下,这些数据细节让他人可以迅速了解我们的生活。

  说到人类行为,我首先要解释:“为什么一个物理学家要关注人类行为?”事实是,物理学家开始关心人类行为,是因为想了解这背后复杂的系统。除了大脑,还有经济、细胞以及计算机系统,这里有很多复杂的体系值得研究。

  我是从对网络的研究开始的。我的前一本书《链接》探讨了人类以怎样的一种方式相互联系:复杂体系里的各个部分怎样联系?基因之间怎样相互关联?计算机之间怎样相互关联?我们要怎么描绘这些关联背后的大网?《爆发》一书的研究就是从结构、网络分析的角度探询促使这些事情发生的动力。

  书中的第二条故事线叫做“1514”,这个故事讲的是1513年在罗马举行的教皇选举如何最后演变成了十字军东征。十字军东征起于匈牙利,一直蔓延到特兰西瓦尼亚,我对十字军东征感兴趣的原因之一是我就出生在特兰西瓦尼亚,对这一事件比较了解。但是这件事到底为什么会引起我的兴趣呢?从书的角度来说,这件事有趣的一点在于,在十字军东征刚开始时,一个人站出来说:“我知道将要发生的一切。”他的预言是,如果你们在思考要不要发动改革,那么这场战争一定会打响,这会是一场血腥的战役,你们最终会取得胜利。我要问的是,他的预言是准确的吗?一个1513年的人又怎么能预测出接下来6个月要发生的事情,而将这件事作为起点,我们真的能预测重大到可以载入史册的事件吗?事实上我们都知道1514年的这场事件的结局是什么,但是我认为这个故事本身就十分吸引人,并跟书中的主旨紧密相连,即我们怎样预测人类行为。

  预测本身其实就是一个令人感到恐惧的词。问题是我们要预测什么?我们要预测下次升职的时间吗?或者和谁偶遇?所有这些预测都需要数据,有了这些数据我们才能说预测的可能性有多大。所以几年前我开始思考这个问题时,决定从收集人类行为轨迹相关的数据开始,即我们在哪里,接下来要去哪里。

  如果我能掌握自己行动轨迹的数据,是否能用一个方程式解出我明天下午三点会在哪里?我并不是关心明天下午三点在哪,但是这个测试确实展示了我们对于人类行为,比如行动轨迹的了解能有多深。

  我想证实,一旦你收集到足够多的数据,你就可以提出这个基本的问题:我们的可预测性有多高,并且会得到一个令人震惊的答案。数据真的可以帮助我们预测之后很长一段时间的行为吗?我尝试在书中一步步推进这一论题。

  (本文根据巴拉巴西9月9日在中科院计算所湛庐文化“大数据时代:谁来掌握我们的未来”高峰论坛整理而成。)