统计和分析界革命:ScraperWiki 融资100万美金
2012-02-08 13:34

 

 

信息时代,大家对于数据的获取和挖掘的需求与日俱增,从小到天气预报的获取,到大如竞争对手的数据的分析。

ScraperWiki 是一个基于云端的社会化数据处理网站,它能让你从各种网站和在线文档中搜刮你想要得到的数据。

如果你是一名Geek,你可以依照网站的文档,使用Python Ruby PHP Node.js 中的任何一门你熟悉的语言编写数据采集的代码,提交到ScraperWiki,然后代码在云端的环境中运行,把数据抓取入库。

抓取到数据有两种获取方式,你可以直接下载成为SQLite数据库文件或者CSV JSON数据表,也可以使用网站提供的API来访问这些数据。

如果你是一名发现复制&粘贴已经不再好使的记者,研究人员或者是数据分析师,你不仅浏览网站已经搜集到的公开数据,发现自己所需要的,还能根据网站提供的向导,依据你的需求,请求网站帮助你抓取数据。当然,这是一个有偿服务,成本将取决于所收集到的信息的数量和复杂性,数据会在几天或者几小时后被送到。当他们知道你想要什么,会给你一个报价。

对于国内团队借鉴的意义:ScraperWiki的重点在其“社会化”,如果你还在思考这个基于云端的技术如何实现,那么不用担心,他们已经把网站的代码开源。ScraperWiki上的资料以收集英文网站的数据居多,可能很多对于国内的用户没有太多借鉴价值,这就为这款产品的本土化提供了契机。国内的团队在运营的第一步可以自己采集一些大家会关注的数据公开在产品中,这种运营可以覆盖到不同的人群,既可以满足大众的娱乐需求,如抓取微博上热门的口水仗,也可以满足企业级的需求,有太多管理人员需要数据,但是不知从何获取,而向传统的咨询公司请求数据需要支付一笔庞大的费用,另外一方面,Geek们又有一身本领无处使用。

ScraperWiki这个产品提供了很大的想象空间,如果你想进一步发掘,他们的官方博客提供了很多运用这个产品获取和分析有趣的数据的例子。

Update:新浪微博网友的总结:这个模式其实也属于“众包”的“社会化”的“跑腿”网站或“任务”网站的一个类型。只不过形式上变成了资料收集和分析而已。这也提示我们:“众包”的“社会化”的“任务”可以有很多种变种。如果您是某个专业领域的从业者,可以考虑一下这种“任务”模式在您的行业里是否也有用武之地。

Via i黑马  By 许作作