运算15万兆数据,云端计算解开人类基因奥秘
2012-09-14 17:40

云端计算不只为大公司带来好处,也有助于解开人类基因奥秘!

云端计算助阵 一口气发表30篇基因解码

9月5号当天,ENCODE一口气发表了30篇关于人类基因解码的论文,有别于过去认为99%的基因是不带讯息的垃圾基因,该计划揭开了大约80%人类基因所表现的运作功能。

ENCODE为Encyclopedia of DNA Elements的缩写,设立该计划就是为了解开人类基因密码,然而想实现这庞大的愿景就必须集众人之力。

来自世界各地共32个研究团队加入了该计划,共同在147个以上的组织样品做了1600多个实验,可想而知实验的数据量必定相当庞大,光从论文所释出的数据就有15兆位元组。

为了让不同实验室都能产出正确且有价值的数据,ENCODE有个数据统整部门(ENCODE Data Coordination Center),从ENCODE的新闻稿中可一窥该部门的运作模式:

对Kent(该部门的负责人)和他在加州大学圣克鲁兹分校(UNSC)的团队来说,计划的规模带来许多挑战,像是在计划初期,他们就需组织起各个参与计划的研究团队。

Kent表示:“为了能让各研究团队协同运作,我们有五位负责前往各实验室进行数据统整的人员,每周还可能有最多四次的研讨会,并外加一年两次的大型会议,更别提无数次的email往返及视频会议。”

除了 ??上述的讨论模式,ENCODE的研究团队还开发了许多云端运算的软体及讨论平台:

1. ENCODE-motifs:能在资料库中根据不同主题做系统性归类。

2. Factorbook::参考维基百科的运作方式,提供由使用者共同编译所有相关资讯的平台。

3. HaploReg and RegulomeDB:对资料库中未编码的基因进行分析、比对及归纳。

4. Tutorials on using ENCODE data and the ENCODE portal at UCSC: ENCODE的资料库使用教学模组。

5. ENCODE Virtual Machine:云端式虚拟操作系统。

Facebook每天500兆数据,企业也要靠云端找出数据价值

这已不再只是个跟大量数据有关的故事,还参杂了云端运算与科学应用的情节。

然而不只有ENCODE面对着大量数据与四散各地的子部门,大型(国际)企业也常在诸如此类的状况中挣扎着,像是Facebook就曾说每天会收集到500兆位元组的数据,如何挖掘出数据的价值就显得非常重要。

ENCODE的运作模式及发展软体的用途已勾勒出分散式合作与管理的未来,诚如云端计算服务商Appistry的副总裁Sultan M. Meghji所言:

“数据的品质及科学深度才是这堆数据中的重点,这也是我们着重于科学式作业的原因,若能有前瞻性的运作过程,并收集到高品质且具可重复性的数据,才能最有效地发挥数据的价值。”

 

本文由“TechOrange与“i黑马”联合出品,原文地址:http://techorange.com/2012/09/13/big-data-and-dna-what-business-can-learn-from-junk-genes/文章由TechOrange 撰写。如果在阅读过程中遇到什么问题,请联系post@chuangyejia.com ,期待您宝贵的意见和建议!

i黑马也诚邀第三方媒体入驻“开放实验室”,合作联系:@老雅痞