运算15万兆数据，云端计算解开人类基因奥秘_创业家

运算15万兆数据，云端计算解开人类基因奥秘

2012-09-14 17:40

云端计算不只为大公司带来好处，也有助于解开人类基因奥秘!

云端计算助阵一口气发表30篇基因解码

9月5号当天，ENCODE一口气发表了30篇关于人类基因解码的论文，有别于过去认为99%的基因是不带讯息的垃圾基因，该计划揭开了大约80%人类基因所表现的运作功能。

ENCODE为Encyclopedia of DNA Elements的缩写，设立该计划就是为了解开人类基因密码，然而想实现这庞大的愿景就必须集众人之力。

来自世界各地共32个研究团队加入了该计划，共同在147个以上的组织样品做了1600多个实验，可想而知实验的数据量必定相当庞大，光从论文所释出的数据就有15兆位元组。

为了让不同实验室都能产出正确且有价值的数据，ENCODE有个数据统整部门(ENCODE Data Coordination Center)，从ENCODE的新闻稿中可一窥该部门的运作模式：

对Kent(该部门的负责人)和他在加州大学圣克鲁兹分校(UNSC)的团队来说，计划的规模带来许多挑战，像是在计划初期，他们就需组织起各个参与计划的研究团队。

Kent表示：“为了能让各研究团队协同运作，我们有五位负责前往各实验室进行数据统整的人员，每周还可能有最多四次的研讨会，并外加一年两次的大型会议，更别提无数次的email往返及视频会议。”

除了 ??上述的讨论模式，ENCODE的研究团队还开发了许多云端运算的软体及讨论平台：

1. ENCODE-motifs：能在资料库中根据不同主题做系统性归类。

2. Factorbook:：参考维基百科的运作方式，提供由使用者共同编译所有相关资讯的平台。

3. HaploReg and RegulomeDB：对资料库中未编码的基因进行分析、比对及归纳。

4. Tutorials on using ENCODE data and the ENCODE portal at UCSC： ENCODE的资料库使用教学模组。

5. ENCODE Virtual Machine：云端式虚拟操作系统。

Facebook每天500兆数据，企业也要靠云端找出数据价值

这已不再只是个跟大量数据有关的故事，还参杂了云端运算与科学应用的情节。

然而不只有ENCODE面对着大量数据与四散各地的子部门，大型(国际)企业也常在诸如此类的状况中挣扎着，像是Facebook就曾说每天会收集到500兆位元组的数据，如何挖掘出数据的价值就显得非常重要。

ENCODE的运作模式及发展软体的用途已勾勒出分散式合作与管理的未来，诚如云端计算服务商Appistry的副总裁Sultan M. Meghji所言：

“数据的品质及科学深度才是这堆数据中的重点，这也是我们着重于科学式作业的原因，若能有前瞻性的运作过程，并收集到高品质且具可重复性的数据，才能最有效地发挥数据的价值。”

本文由“TechOrange ”与“i黑马”联合出品，原文地址：http://techorange.com/2012/09/13/big-data-and-dna-what-business-can-learn-from-junk-genes/文章由TechOrange 撰写。如果在阅读过程中遇到什么问题，请联系post@chuangyejia.com ,期待您宝贵的意见和建议!

i黑马也诚邀第三方媒体入驻“开放实验室”，合作联系：@老雅痞

［本文作者i黑马，i黑马原创。如需转载请联系邮箱hm@chuangyejia.com授权，未经授权，转载必究。］