关于360搜索引擎“peoplerank”工作原理的猜想！_创业家

关于360搜索引擎“peoplerank”工作原理的猜想！

2012-09-12 15:29

Google的pagerank就不多介绍了，一个能衡量网页重要程度的算法，本质上是网页相互投票的结果，基于这个特性，我们可以通过使用sitemap让搜索引擎尽可能浏览到多的网站内容，也可以通过多做外链来提高网站的PR值，达到SEO的目的。

市场上大多数搜索引擎都在使用pagerank类似的方法，且为了保证公正性，都采用纯机器运行的方式，通过网页爬虫来遍历网站，这就出现了一些有趣的问题：

1、一个网页的内容是很棒的，但是由于外链太少，爬虫在设定的深度阈值下可能无法爬到它，成为了少人问津的“暗内容”

2、部分网站因为PR值很高，即使转载的内容或是价值不高的内容，也可能有很好的检索排名，即使技术领先的搜索引擎采用语义网络的方法识别优质内容，效果依然不够好

为了规避以上问题，引入用户数据来评判网页内容的重要性及质量，是一个可研究方向，怎么做呢?

假设：浏览行为及时长是对网页质量的最好评判，相当于用户标注，在大规模数据的情况下，效果应优于机器

原理：

1、通过浏览器或其他客户端软件，最好的防火墙或其他安全软件，获取用户浏览日志，上传给搜索引擎的爬虫数据库，即是得到用户浏览数据

2、爬虫匹配已有索引库，找到未索引内容，爬之

3、利用用户日志给网页投票，浏览时间越长权重越高，计算出网页的rank

缺陷：

1、依赖客户端

2、有用户隐私问题

规避：

1、提出云杀毒、云防御、云安全，让用户同意上传浏览记录

2、偷偷上传，将浏览记录(其他文件也可以)加密并分拆上传，在服务器端组合还原

好了，思路说完了，来给它起个响亮高深名字：peoplerank

最后，我这是很严肃地说技术

Via i黑马 By sluke陆蔚青原文地址：http://luplusplus.com/peoplerank-modle

［本文作者i黑马，i黑马原创。如需转载请联系邮箱hm@chuangyejia.com授权，未经授权，转载必究。］