Google动态搜索技术提升，可抓取Facebook信息_创业家

Google动态搜索技术提升，可抓取Facebook信息

2012-05-22 13:52

经由一支虚拟的机器人大军—“网路爬行应用程式(Web-crawling applications)”对网站内容所进行的搜索，Google即可从中将搜获的网站资讯罗列到搜索引擎索引中。但在过去，Google的机器人每逢JavaScript语言所载入的互动式内容就会碰壁，尤其是Asynchronous JavaScript and XML (AJAX)结构的网页─让使用者不必重新载入页面的情况下，即可存取更多的内容的技术。而今，根据位于温哥华的开发商Alex Pankratov表示，Google的机器人在挖掘互动式网站内容时，似乎被训练得更具人味，在执行JavaScript的网页上进行搜索时，也就无往不利。

Google在往昔也曾提出建议方案，让AJAX的内容更容易搜索，如此一来，重担却落在网页开发者，而非Google机器人的身上，也因此并未获得Google预期的开发者注意。在2011年的最后一季，Google终于开始想出，如何从其终端有效的解决此一问题，并开始推出机器人，让它经由寻遍内页的JavaScript，并找出其中的网址，将其加入到搜索内容这种方式，能够探索到网页的动态内容。这种做法在某些情况下(依JavaScript程式码的撰写方式而定)，需要Google公司同意它的搜索者发送网路伺服器所需的POST表单(POST requests，通常用来处理较大资料的传送方式)给网站，而非GET表单(GET requests，较小资料的传送方式)，后者多是用来接收内容。总之，Google已经可以开始检索类似Facebook上面的回应，以及其他“动态回应”系统。

尔今，根据Pankratov日志显示，机器人显然已非单纯在JavaScript上挖掘网址，它们甚至已经深入超过“回应”层次，将JavaScript功能的处理方式更上层楼。在使用者点选可以动作的物件时，Google搜索亦可轻松进入网路内部，检索躲藏在资料库内的内容及其他讯息来源，这些都是以往无法做到的事情。

本文由i黑马作者Michael Corleone 整理自arstechnica

［本文作者i黑马，i黑马原创。如需转载请联系邮箱hm@chuangyejia.com授权，未经授权，转载必究。］