深度报告:中国医疗数据创业的4大方向
峰瑞资本 峰瑞资本

深度报告:中国医疗数据创业的4大方向

这篇文章从数据产生、数据处理、数据消费的角度分析了医疗数据产业链。

医疗行业是数据密集型产业,数据积累亘古存在。然而,在数据的应用水平上,医疗行业远远落后于互联网、金融和电信等信息化程度更好的行业。

峰瑞资本生物医疗技术团队从数据产生、数据处理、数据消费的角度分析了医疗数据产业链。分析显示,医院、诊所等专业医疗机构和保险机构仍然是医疗数据产生的最重要来源,来自手机 App 和可穿戴设备的数据开始提升数据的完整性、连续性和准确性;数据处理是个系统工程,包括清洗、整理、分析等标准环节,对数据结构化提出了更高要求;截至目前,为医疗数据买单的是 B 端的医疗机构、药企和保险公司,让 C 端的病人和医生为数据付费目前还不现实。

美国的医疗体制相对市场化,对医疗体系的投入巨大,使其在技术、服务和流程等支柱产业,都可以成为中国医疗产业发展的远景参照物。近几年,医疗数据产业在美国发展迅速。峰瑞资本生物医疗技术团队挑选了4 家有代表性的美国医疗大数据公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例分析。

如果您在医疗健康领域有创业想法,可以与本文作者、峰瑞资本医疗组早期项目负责人王蕾( lei@freesvc.com)和谭验(yantan@freesvc.com)联系。加入峰瑞资本前,王蕾曾任职于美国最大的医药咨询和市场调研公司 IMS Health,负责为国际和中国本土医药企业提供战略和战术咨询。谭验曾是 Tamr 早期员工,大数据整合平台公司 Tamr 由 2014 年图灵奖获得者、美国数据库专家 Michael Stonebraker 创办。

1

大数据产业的出现和医疗数据投资策略分析

文 / 谭验(yantan@freesvc.com)

王蕾(lei@freesvc.com)

/01/IBM用3V定义大数据

IBM 最早提出了大数据的 3V 定义。3V 是 Volume,Variety,Velocity。

2

Volume 比较好理解,因为大数据本身的 “大” 代表了数据数量的巨大。数据量越来越大的原因很多,其中一个是现在机器和网络每天都在生成大量的数据。据统计,我们现在每两天产生的数据量约等于自人类文明开始到 2013 年的数据量的总和。

第二个特征是 Variety,多样化。多样化主要指不同的数据来源和种类。传统意义上的数据主要来自类似 excel 的表格和数据库。现在人类能够分析各种形式和类型的数据,比如电子邮件、图片、视频、音频、监控仪器,等等。

第三个特征是 Velocity,即数据生成的速度。比如,互联网上数据的生成是以秒甚至毫秒来计算的。再比如,基因测序仪、网络监控的录像,都在随时随地产生大量数据。

以上 3 个 V 是公认的大数据定义。在 2013 年波士顿的大数据峰会上,Express Scripts 的首席数据科学家 Inderpal Bhandar 提出了 Veracity 的概念。Veracity 主要是指数据是否有偏差、数据噪声有多大,以及是否有异常值。当业界大量积累各种来源的数据时,数据是否准确变成一个非常重大的问题,否则最后就是 “Garbage in,Garbage out”。