全球互联网流量(骨架)
2013-03-25 11:30 找灵感 互联网流量

怎么把互联网的流量结构表达出来。有不少软件和程序,可以让你输入一个网站域名,给出若干步的链接结构,还能画出图。但这些都不能满足我的要求。因为我要:

1.全球最重要的一些网站之间的链接结构

2.链接要有权重。这个权重是网站的流量。比如说swarma.org有10个上家和7个下家,现在我想知道这10个上家各自对swarma.org有多少流量贡献,这就是权重了。

用矩阵的语言来说,cell上的元素不是0/1,而是百分比。

第一点很好做到,第二点却是目前大多数免费的软件或网站不具备的,各大搜索引擎自然也有这个数据,但并没有公布。

自己动手,丰衣足食。于是我决定自己搞。先是用python搞了半天,没有搞定,于是换用我比较熟悉的mathematica。很快,一个程序就写出来了,这个程序我称之为Tube, 意思就是它能用来截取网络上的数据(就和我们的一些新疆兄弟在国家的输油管道上凿个孔装个私家小管子偷油的意思差不多)。Tube可以利用alexa的数据,得到网站的链接和流量。

Tube的工作方式是,输入任意一个网站的域名,给出它最主要的10个上家和10个下家网站的名字,并给出权重。

在这里初步展示一下两张分析的图:

第一张(图一)是提取了google给出的流量排名全世界前1000的网站(google的ad planner每月会更新一次这个排名),将这些网站的域名导入Tube。这样,我就得到了一张网络。这张网络勾勒了世界前1000大网站的流量来源和去向。这个网络一共有将近3千个网站和2万条有向链接。有趣的是,我们发现,全世界的流量地图分成了两大阵营。左边这一块的核心是google,youtube,facebook等,右边的核心是baidu,youku,renren等。

非常有意思,中国的网站既山寨别人,又自成一个系统(中国cluster的形成有多种原因,例如语言,政治管制等)。其实很多地区的网站都有子系统,例如日本。但因为中国的流量实在是太大了,所以这个子系统的地位非常突出。

图一

图二

这3千个网站形成的网络的度分布是个长尾分布,但有一个明显的截断。这是因为我们只考察了前1000的网站,出了这个排名范围的网站数据是极度不全的,只能在别人的上下家list里偶尔出现一下。因此我们取前1000个网站来看分布,是一个类幂律分布,斜率大概是0.8。我们知道Zipf指数是0.8,也就是幂律指数大概是1.8。而Barabasi等人(Barabasi,1999)估计的WWW网络链接幂律分布指数是2.1。这有两种原因,一种是这十年来互联网变得更不平等,另一种是我们只监测重大流量的链接结构,相当于互联网里的rich club(S Zhou,2004; V Colizza, 2006*)。也就是rich club里面的链接是更不平等的。当然,还有可能和我们的数据量不够(finite size effect, RL Axtell, 2001),或者是采样的20个网站这个上限有关。

2.1和1.8,只差了0.3,为什么要这么计较?因为在幂律分布里,指数2是个分水岭,关系到许多有意思的性质。例如指数大于2幂律分布的尾巴才会收敛。

当然,这些都是泛泛而论,精确的结论需要更精细的研究。等到我完成手头的相关研究,会把这个数据开源,甚至程序也可以开源,让更多有志于探索互联网科学和人类行为的人来共同进行这项事业。

最后,放两张来自公司的图。

第一张是facebook工程师画的全球facebook交友网络,样本规模为1千万,从5亿(2010)用户中抽出。

图三

第二张是microsoft工程师画的全球msn用户地理分布图,样本规模为1.8亿,从全球2.4亿(2007)msn用户中删除无效用户后得到。

图四

我们可以把这两张图想象成位于在图一左边核心的某两个节点(网站)“眼里”的世界。因为种种原因,他们看不清“对岸”的中国。在他们的世界地图上,中国几乎是空的。而从图一来看,在population of user=intelligence的互联网时代,中国的互联网流量是绝对不容忽视的一个金矿。

这,也许就是为什么google和中国有那么多纠缠,多次声称要离开,但还是不愿意放弃中国市场;以及为什么Facebook创始人也访问了中国。

本文作者 计算士 原文请点这里