【观点】用大数据预测疾病趋势:小心踩到雷区
2014-05-23 10:25

编者按:
在大数据被热炒的今天,你一定从哪里听说过,谷歌用搜索和大数据技术来预测流感发生。大数据粉丝们对此捧红得不得了,这就是著名的“谷歌流感趋势”(Google Flu Trends)项目。粉丝们认为,利用大数据预测疾病发生,是公众健康的福祉。

不过,身在美国的卫生经济学家陈茁向健康界介绍,这一始于2008年的项目如今在美国遭遇到了很大质疑。

他介绍,尽管“谷歌流感趋势”在2009年的成功表现让人大吃一惊,但接下来,项目高估了类流感的发病率,有时甚至比美国疾控中心的数据高出一倍以上。

他的观点很明确,类似项目应该在数据准确方面有所改进,不切实际的过高期望有可能会“捧杀”大数据。但他相信,如果方法得当,大数据对疾病预测依旧有巨大的潜能,还可以在疾病监测防控之外发挥难以比拟的作用。

“谷歌流感趋势”为何受质疑
2009年以后,“谷歌流感趋势”项目的表现一直不尽如人意。2011年~2013年间,项目多数高估了类流感发病率,有时候甚至比美国疾控中心的数据超出一倍以上。原因到底是什么?

我个人认为,其中一个原因就是大家被“谷歌流感趋势”2009年的成功迷惑了,寄予了它过高的期望值。

现实要远比原理复杂。谷歌搜索的结果和使用者人群“自我估计”的流感发病率相关。“自我估计”实际上很有问题。这是因为,普通感冒在不同个体身上的严重程度上会有差别,有些患者因为担心,便搜索了相关信息。这些搜索构成了类流感“自我估计”中的“噪声”。所以,“谷歌流感趋势”模型中的“噪声”需要谨慎对待。

另外,美国疾控中心的数据来自各地实验室或医疗服务提供商,反映的是就诊发病率。由于不是每个类流感患者都会去看病,美国疾控中心的数据跟真实发病率也会有差别。

某种意义上说,谷歌流感趋势的预测和美国疾控中心数据是两个不同的指标,两者不一样并不奇怪。相对于就诊发病率,我认为“谷歌流感趋势”结合传播动力学来预测流感暴发概率,可能会更好一些。

当然,如果只用“谷歌流感趋势”,还想准确地预测流感发病率,无疑是歧路亡羊。

“谷歌流感趋势”项目失误的另外一个原因是在数据分析方面存在欠缺。哈佛大学GaryKing和搭档的研究就指出了谷歌项目在分析上的不足。

首先,这个项目没有尽可能利用传统的统计分析手段来剔除系统误差,比如残差的自相关性和季节性。

其次,“谷歌流感趋势”忽略了其他数据的作用。如果结合美国疾控中心的数据,谷歌的预测其实有可能被大大改善。我曾在明尼苏达大学杨宇宏教授的指导下做过“预测合并”的研究,“预测合并”可以改善预测精度,这或许是一个可行的改进方向。

另外,有推测认为,随着项目开始广为人知,很多人开始跟进研究。大家都搜索流感相关短语,也增加了不少“噪声”。这个问题相对来说比较容易解决,因为谷歌可以确定搜索是否源于研究机构子网中,然后进行排除。

而且,Gary King等也委婉地对谷歌研究团队提出了批评,认为其数据分析不够透明,没有将完全的“搜索短语集”公布出来。

中国CDC与百度合作要避免雷区
尽管谷歌的项目遭遇质疑,但我个人认为这种质疑不足以否定大数据对国民健康的潜在贡献。我也相信,大数据还可以在疾病监测防控之外发挥难以比拟的作用。

根据美国2010平价医疗法案(ACA)建立的循患果效研究所(Patient-centered Outcome Research Institute)曾经资助了一个大数据项目。该项目旨在利用11个不同医疗服务网络的数据,来找出医学干预有可能产生的不同效果,并为找到合适的随机临床试验受试者提供线索。

此外,随着信息技术的发展和相关软硬件性价比的提高,相当多的数据服务商和地区医疗服务网络已开始利用大数据,寻找最有效和最具成本效益的医学、预防和干预手段。老牌MarketScan等数据服务机构受到新兴机构的挑战,如医疗成本研究所等。

我相信,中国国家疾病预防控制中心与百度的合作前景可期。百度的数据结合中国国家疾病预防控制中心观测点的数据,可提供更多更全面的原始信息。如果配合严谨的分析,这有可能开辟疾病监测防控的新天地。

对于上述合作,期许之外,我也有一些建议:

一个是应该更加重视分析方法,不能因为有了大数据就放弃对分析方法的重视和探索。没有合适的方法,大数据也可能导致错误的结论。比如,百度的使用人群会有不同的特征,利用百度数据进行推测疾病,就需要考虑这些特定人群与一般人群之间的差异。

另外,也需要考虑个人隐私和流行病监测之间的平衡。

最后,对标准化的重视会减少大数据应用过程中的错误。这一点医院和各地疾控机构信息化建设尤为重要。