【观点】用大数据预测疾病趋势：小心踩到雷区_方法论

【观点】用大数据预测疾病趋势：小心踩到雷区

2014-05-23 10:25

编者按:
在大数据被热炒的今天，你一定从哪里听说过，谷歌用搜索和大数据技术来预测流感发生。大数据粉丝们对此捧红得不得了，这就是著名的“谷歌流感趋势”（Google Flu Trends)项目。粉丝们认为，利用大数据预测疾病发生，是公众健康的福祉。

不过，身在美国的卫生经济学家陈茁向健康界介绍，这一始于2008年的项目如今在美国遭遇到了很大质疑。

他介绍，尽管“谷歌流感趋势”在2009年的成功表现让人大吃一惊，但接下来，项目高估了类流感的发病率，有时甚至比美国疾控中心的数据高出一倍以上。

他的观点很明确，类似项目应该在数据准确方面有所改进，不切实际的过高期望有可能会“捧杀”大数据。但他相信，如果方法得当，大数据对疾病预测依旧有巨大的潜能，还可以在疾病监测防控之外发挥难以比拟的作用。

“谷歌流感趋势”为何受质疑
2009年以后，“谷歌流感趋势”项目的表现一直不尽如人意。2011年~2013年间，项目多数高估了类流感发病率，有时候甚至比美国疾控中心的数据超出一倍以上。原因到底是什么？

我个人认为，其中一个原因就是大家被“谷歌流感趋势”2009年的成功迷惑了，寄予了它过高的期望值。

现实要远比原理复杂。谷歌搜索的结果和使用者人群“自我估计”的流感发病率相关。“自我估计”实际上很有问题。这是因为，普通感冒在不同个体身上的严重程度上会有差别，有些患者因为担心，便搜索了相关信息。这些搜索构成了类流感“自我估计”中的“噪声”。所以，“谷歌流感趋势”模型中的“噪声”需要谨慎对待。

另外，美国疾控中心的数据来自各地实验室或医疗服务提供商，反映的是就诊发病率。由于不是每个类流感患者都会去看病，美国疾控中心的数据跟真实发病率也会有差别。

某种意义上说，谷歌流感趋势的预测和美国疾控中心数据是两个不同的指标，两者不一样并不奇怪。相对于就诊发病率，我认为“谷歌流感趋势”结合传播动力学来预测流感暴发概率，可能会更好一些。

当然，如果只用“谷歌流感趋势”，还想准确地预测流感发病率，无疑是歧路亡羊。

“谷歌流感趋势”项目失误的另外一个原因是在数据分析方面存在欠缺。哈佛大学GaryKing和搭档的研究就指出了谷歌项目在分析上的不足。

首先，这个项目没有尽可能利用传统的统计分析手段来剔除系统误差，比如残差的自相关性和季节性。

其次，“谷歌流感趋势”忽略了其他数据的作用。如果结合美国疾控中心的数据，谷歌的预测其实有可能被大大改善。我曾在明尼苏达大学杨宇宏教授的指导下做过“预测合并”的研究，“预测合并”可以改善预测精度，这或许是一个可行的改进方向。

另外，有推测认为，随着项目开始广为人知，很多人开始跟进研究。大家都搜索流感相关短语，也增加了不少“噪声”。这个问题相对来说比较容易解决，因为谷歌可以确定搜索是否源于研究机构子网中，然后进行排除。

而且，Gary King等也委婉地对谷歌研究团队提出了批评，认为其数据分析不够透明，没有将完全的“搜索短语集”公布出来。

中国CDC与百度合作要避免雷区
尽管谷歌的项目遭遇质疑，但我个人认为这种质疑不足以否定大数据对国民健康的潜在贡献。我也相信，大数据还可以在疾病监测防控之外发挥难以比拟的作用。

根据美国2010平价医疗法案（ACA）建立的循患果效研究所（Patient-centered Outcome Research Institute)曾经资助了一个大数据项目。该项目旨在利用11个不同医疗服务网络的数据，来找出医学干预有可能产生的不同效果，并为找到合适的随机临床试验受试者提供线索。

此外，随着信息技术的发展和相关软硬件性价比的提高，相当多的数据服务商和地区医疗服务网络已开始利用大数据，寻找最有效和最具成本效益的医学、预防和干预手段。老牌MarketScan等数据服务机构受到新兴机构的挑战，如医疗成本研究所等。

我相信，中国国家疾病预防控制中心与百度的合作前景可期。百度的数据结合中国国家疾病预防控制中心观测点的数据，可提供更多更全面的原始信息。如果配合严谨的分析，这有可能开辟疾病监测防控的新天地。

对于上述合作，期许之外，我也有一些建议：

一个是应该更加重视分析方法，不能因为有了大数据就放弃对分析方法的重视和探索。没有合适的方法，大数据也可能导致错误的结论。比如，百度的使用人群会有不同的特征，利用百度数据进行推测疾病，就需要考虑这些特定人群与一般人群之间的差异。

另外，也需要考虑个人隐私和流行病监测之间的平衡。

最后，对标准化的重视会减少大数据应用过程中的错误。这一点医院和各地疾控机构信息化建设尤为重要。

［本文作者i黑马生医健，i黑马原创。如需转载请联系邮箱hm@chuangyejia.com授权，未经授权，转载必究。］