社交挖掘:谁是下一个Google?
王根旺 王根旺

社交挖掘:谁是下一个Google?

你可能觉得这些毛头小子没啥过人之处,但他们能洞悉你在网络上的一举一动,甚至比你自己更了解你。

文/本刊记者王冀(刊登在《创业家》第十一期)

见到袁雨来的时候,他正在和团队完善产品。他们总共十几个人,在中关村租了一套Loft结构的公寓,专心开发基于社交网络的应用。

从表面看,他们和其他互联网团队无异,但在袁雨来眼里,他们做的事情门槛很高:通过社交网络,利用高效的算法获知用户的喜好,从而为其荐歌。形象地说,他们知道你喜欢听什么样的歌曲,也知道你喜欢的歌曲在哪里,然后基于社交关系把音乐推荐给你。

走出象牙塔

袁雨来的产品叫音贝网,新版在8月24日上线后已经有了20万用户。音贝不判断歌曲的舒缓、摇滚等属性,而是根据一些原则为歌曲编织一个网络——在用户关系网和歌曲组织网之间相互映射,最终圈定用户喜欢的歌曲。

要实现这个目的,就需要过硬的算法。在这方面,音贝具有自己的优势,袁雨来两年前毕业于清华大学,获有高性能计算博士学位。他的团队中有4个人研究算法,其中包括一个他在清华的同学。

面对《创业家》,袁雨来更愿意用“社交数据挖掘”来形容自己的项目,这是一个专业性极强的工作。国内一些高校在对此进行研究,因此很多团队都和他们的母校有着天然的联系。

以清华大学为例,计算机科学与技术系的唐杰和陈文光教授都是社交网络的研究者,袁雨来正是毕业于这个系。此外,在电子科技大学计算机学院,29岁的博导周涛也是这方面的专家,这位本科就开始“带”博士生的牛人精于数据算法,同时也是电商营销公司百分点的首席科学家。周涛的学生黄宇于去年创办了“唯朋友”,这是一个基于微博,促进你和好友之间的互动,以加深社交关系的数据挖掘项目。

此外,北大、北航、上海交大、哈工大都有师生研究社交网络,他们为国内的社交数据挖掘提供了学术支持和项目储备。但另一方面,这也促成了这个群体的小众特征,毕竟一个复杂的算法不是随便哪个人都能做的。

某种程度上,这些项目还带有实验性质。比如哈工大博士于霄创办的知微,就脱胎于哈工大的社会网络与数据挖掘联合实验室。清华大学计算机副主任陈文光教授带了一个项目,叫社会化网络分析平台,他们和海银资本共同搭建了一个数据池,陈教授的研究成果可以直接为海银资本孵化的项目调用。

“社交网络在全世界都是个新兴科学,社交网络这个词都没几年的历史”,海银资本创始合伙人王煜全近几年一直在研究社交网络,坚信这是互联网的发展趋势。他认为,互联网自诞生那天起就是一个社交网络,只不过是基于物理性质的连接,Google的pagerank本质上就是个社会化算法,只不过是用这个社会化算法处理文本和网页,用社会化算法去处理人和人背后的信息,原理其实都是一样的。

乐荐网络创始人戴虎宁建了一个专门讨论社交数据挖掘的QQ群,里面大约有300人,基本囊括了中国研究社交数据的高手,里面好多人没有创业,好多还是学生。“出来创业的估计30支团队到头儿了”,王煜全说,“我觉得他们是未来的比尔.盖茨,具体是谁我不知道,但一定在这堆人里。”

新的颠覆者?

Twitter、Facebook、Foursquare等的出现,真正把人们带入了社交网络时代。“社交网络在科技上有巨大的提升空间,比如对一个人的精确分析,没有社交网络就永远达不到那种精度。”王煜全说这句话的背景是:数据挖掘早已有之,但社交网络的数据挖掘还是个新课题。

随着用户的疯狂增长,社交网络产生的数据量是惊人的。每过一分钟,Flicker上会有3125张照片上传,Facebook上新发布70万条信息,YouTube上则有200万次点击观赏。图片、声音、文字以及背后的用户习惯和轨迹构成了互联网上的数据资源,社交网络与大数据是天生的亲密伙伴。

这些数据价值密度不高,要挖掘出有用的那部分是个力气活。以Zynga为例,这是一家寄生在Facebook上的社交游戏公司,它的游戏强调好友之间的合作。为了黏住用户,Zynga每天大约要收集600亿个数据点,包括人们一般玩多久游戏,什么时候玩,喜欢购买什么游戏物品等。从某种意义上说,Zynga可能比你自己还清楚地知道你的潜意识决策。

在清华大学陈文光教授看来,社交网络是下一代应用层面的互联网。“第一代是雅虎、新闻门户等,第二代是搜索引擎,第三代就是社交网络,它不仅是连接信息,更是连接人,会和社会学、心理学、经济学有很多交互的地方,从研究的角度来讲是非常有意思的事儿。”

今年上半年,美国曼彻斯特大学的研究团队做了一个实验,他们通过分析Twitter上的数据,提前8天预报了流感的爆发。在一个月内,研究小组收集了440万个Twitter留言的地理定位数据标签,使用一种特殊的算法进行处理(类似语义分析),从而预测不同地区的流感发病率。

这似乎印证了《爆发》一书作者、全球复杂网络研究权威巴拉巴西教授的观点。他基于社会化大数据基础,认为人类行为有93%是可以预测的。如果确实如此,那么社交网络中无疑蕴藏着巨大的商业价值。

在 《创业家》采访的团队中,新影数讯(iFilm+)擅长预测。他们通过对微博和过往资料数据的分析来预测电影票房,同时给影片提供营销建议。创始人刘晗透露,其票房预测准确度可达85%。他们的做法是首先确定影响票房的变量,如演员、档期、上映时间、首映地等,一些看似与数字无关的事项都被按规则加以量化;然后,他们从统计年鉴中查到了1990年以来上映的四五百部电影数据,让计算机逆向推导出定量,从而确定公式。预测时把社交网络中反映出的演员热度、电影关注度以及预定的上映时间等变量填入公式,进行测算。

真实的算法远比上面的描述更复杂。刘晗演示时,笔记本屏幕上密密麻麻布满了数学符号,但电脑要精确计算出人类的行为,仍需继续探索。“预测准确度提升1%,都需要做大量复杂的工作,必须找到并引入新的变量才行。”刘晗说。

刘晗所面临的挑战,是社交数据挖掘者们共同的问题,即便在美国,算法也没有完全突破,这为中国的创业者们提供了机遇。王煜全把中国偏后期的投资比喻为“拼爹”,以前的互联网投资是“拼经验”,前一段流行“拼干爹”,就是大VC靠砸钱来砸市场,到了社交网络时代就要“拼技术”,因为互联网的核心本质就是技术,而有算法支持的社交网络产品是无法抄袭的,即便把国外的算法搬到国内也会水土不服。“在社交网络上,中国不会落后美国太久了,中国肯定会迎头赶上。”

王煜全认为,未来只有一个叫社交网络的互联网,真正的社交网络,其实就是人际关系网,凡是没叠加社交关系的1.0式的网站,理论上都会被颠覆。他的理由有三点:第一,没有社交关系就没有个性化,就不知道用户行为会怎么变化;第二,传统网站需要内容提供者,而在社交网络的UGC时代,通过互动激发内容,根本不需要有内容提供者;第三,社交是人类最本质的生存需求,社交能力的高低很大程度上决定人成功与否。目前Facebook的平均好友数是130人,未来随着算法的演进,人类的社交能力将出现质的飞跃。

赌未来

中国目前最具影响力的社交网络是新浪微博。自2009年上线以来,它已经成为聚拢了3.68亿用户的开放平台。在《创业家》6月推出的《开放平台TOP10》评选中,新浪微博被开发者们评为“最具开放度”的平台。不同层次的API接口可以调用新浪微博的内部数据,为开发应用提供便利。

《创业家》见到的社交网络应用团队,大多数都接入了新浪微博,但他们仍然抱怨新浪的开放度不够高。黄宇在开发“唯朋友”的过程中,需要大量调用新浪微博的API,但一些重要数据无法访问,比如用户的私信,这显然涉及隐私问题。此外,新浪对一些API的访问频率也做了限制。因此,一些团队也在打算接入腾讯微博,因为腾讯可以把私信都开放。此外,他们也密切关注移动端,一些业务也可以移植到微信上。而无论微博还是微信,都不过是底层的社会平台,他们要在此之上叠加应用,最终超越原先依附的平台。

但挖掘者们的技术还不足以处理大数据。“好有美食”是一个10月中旬刚上线的APP,基于好友关系来给你推荐餐厅和美食。它目前能抓取新浪微博的原创和转发内容,而没有抓取评论,其中的一个原因就是“数据量太大”。新影数讯的刘晗也强调,他们做的是数据挖掘,而不是大数据处理。“大数据的计算量非常大,一天的数据量就会上T,一般人处理不了,我们要的有价值的数据也就是几十G。”

陈文光教授估算了新浪微博的数据量级。“不包括图片和评论,大约是在几十T到几百T,如果只拷贝所有的社交关系,那还不到一个T。一台256G内存的机器,就能把一两亿用户的关系数据放在内存里,处理起来就快很多。光分析社交关系的数据,就可以做很多工作了。”

他还分析了小团队的创业成本。“租一个100M的带宽和IDC机位每年大约要10万块,买一台有4个CPU和256G内存的服务器也要10万块,再加上人力、房租,以及写软件和用虚拟主机、云平台等成本,最少有100万投入才能干这件事。”

这些团队必须节衣缩食的另一个理由是:社交网络应用仍然没有成熟的商业模式,即便VC对社交网络也没有特别强的信心。知微创始人于霄对《创业家》表示,“2C(针对个人用户)的商业模式需要有相当量的用户留存和频繁的使用,而现有的产品还刚刚面世,想建立起用户黏性、吸引大量的客户还是蛮难的。2B(针对企业用户)的商业模式则更偏向营销,可能只维护十个客户都会做的非常强大,但垂直领域的数据量还没那么多,最早期的时候没有太多素材可用。”

新影数讯是我们遇到的唯一有收入的团队,但全年营收最多也就两百万元,还没打平。刘晗更看重积累数据,对他来说,数据是比现金更值钱的资产,如果能建立起一个中国最全的电影数据库,赚钱就是水到渠成的事。

海银资本孵化的社交网络应用团队有16个,到年底估计能达到30个,它们抱团取暖。海银和清华大学合作,后者研究社交网络的数据池可供这些团队使用,大多数固定的社交关系可以直接从中调用。在中关村云计算基地,王煜全的好友田溯宁以低于市价一半的价格提供了600平方米的场地,一些团队不久后就将搬去那里。这些团队彼此之间也有大量的沟通与协作,比如分工调用新浪微博不同的API以提升效率。此外,在营销上这些团队也会彼此借力。

海银在这些项目上介入很深,王煜全亲自和团队讨论确定产品方向。他告诉这些年轻人,一旦大目标确立,至少要坚持三到五年。他坦承,这些业务五年不见得赚一分钱,但是五年之后也许是个Google。他用苹果公司曾经的广告语来鼓励他们:只有那些疯狂到认为自己可以改变世界的人,才能真正改变世界。

社交网络
赞(...)
文章评论
匿名用户
发布