从《古惑仔》看“数据陷阱”
2014-01-02 16:16 古惑仔 流氓 数据

在上个世纪90年代的一个初夏的傍晚,微风拂面,知了不停地鸣叫。在校园里,每个教室里都传出了沙沙的声音,一个个表情木讷的高三学生正在题海中遨游。教室的最后一排,一个扎着马尾的清秀姑娘给旁边的男孩传了一


在上个世纪90年代的一个初夏的傍晚,微风拂面,知了不停地鸣叫。在校园里,每个教室里都传出了沙沙的声音,一个个表情木讷的高三学生正在题海中遨游。教室的最后一排,一个扎着马尾的清秀姑娘给旁边的男孩传了一张纸条,上面写着“听说电影院今天演《泰坦尼克号》,我们逃课去看吧!”

男孩看到纸条后,脸上泛出了淡淡的红晕,一脸亢奋地回了张纸条,“我听说人民街的录像厅今天放最新的《古惑仔》啊,我们去看那个吧。”

那天晚上,这一男一女在男生的坚持下,还是去看了《古惑仔》。从第二天开始,女生就开始亲热地喊他“兄弟”……两个人再也没有然后了。

很多时候,如果不能透过现象看穿本质,那么一定会摔得很惨,追姑娘是这样,玩数据也是这样。


一、从砍人神父看数据解读的不同角度



同一个人,在其他不同人眼中的形象是千奇百怪的,很难做到整齐划一。而同一个画面、同一个数据,都静悄悄地呆在原地,不同的角度会带来截然不同的效果。例如同一件淘宝服装,显示器上的效果和收到货之后的效果很难保持一致,如上图同事肉身所示。

例如在古惑仔《只手遮天》里,林神父在球场上挺身而出直面乌鸦,一声令下杀出了几十个手持菜刀拖把的邻居,说出了他那经典台词“我传道二十多年,叫大家信耶稣大家不一定会,但是让大家砍人他们一定会照办的。”



那么就拿这个场景定格。不同的媒体如果给这一场景取标题的话,《读者》一定是“牧师见义勇为背后的哲理小故事”,《知音》一定是“浓浓的大爱啊为那般,俊雅牧师为失足少年撑起一片天”,法制版一定是“管制刀具何时禁?和平街区惊现24把砍刀”,而地铁上的街头小报一定是“禽兽神父露出真正獠牙 一声令下欲血洗东兴”。

数据是死的,人是活的。学会合理地解读将是必备技能,特别是对于像我这般的打工屌丝来说,必须要学会找到数据最有用的解读切入点。


二、从大天二被阴看数据的首要条件



大天二在古惑仔前三部中一直不显山不露水,而扮演者谢天华在当年也还只是一个小字辈。但是在第四集一开始,当大飞把妹妹嫁给他之后,他的地位在洪兴内部飙升,也正是这种地位的变化,让他准备帮山鸡争屯门扛把子砍生番的时候,没有能冷静地分析到手的数据。

当内线告诉他,生番每天都会在鱼摊打麻将身边只有三四个人的时候,大天二没有从多个渠道去验证数据的准确性,而是豪气十足地带着四个人就要去搞定生番,虽然出发前拜了拜关二爷,但是别忘了,关二爷当年也因为忽视江边烽火台情报网而被人砍了脑袋。

生番身边果然只有三个人陪他打麻将,但是旁边的屋子里窜出来五十多个人,大天二被人按在水池中挑断了手筋脚筋,如果不是大飞,那晚他就已经横尸街头。

所以,对于研究数据的人来说,正确的数据比大量的数据更有用。这里的正确,不仅仅指结论正确,也包括取样正确、分析方向正确。

在2013年,大数据成为了IT界最火热的词汇,哪个公司如果不说自己会大数据分析,简直没有脸在行业内行走。但是,如果盲目地追求数据量的大,而忽视了数据的对,那么就容易在错误的道路上越走越远。

在各种数据统计教材中,有一个案例被反复提及,那就是当年罗斯福竞选总统时,美国著名期刊《文学文摘》放出了1000万份读者调查表,并做了大量的电话调查,最后得出的结论是共和党的兰登将以57%对43%的绝对优势战胜民主党的罗斯福。而最后的结果却是罗斯福以62%的支持率得以连任,给《文学文摘》一记响亮的耳光。

在这个例子里,是因为样本的数量不够吗?发出1000万份调查,回收240万份数据,同样的数据量放在今日都堪称庞大。核心问题在于样本的选择出现了无意识的偏差,1000万《文学文摘》读者并不能代表全体美国人的特征,乐于参与调查的240万人跟剩下的760万人也没有相似性。

由此可以看出,样本数越大的数据分析,如果出现偏差的话,造成的危害越大。例如如果在10万个被派出所抓获的嫖客中做一个调查,问我国是否应该放开性交易,那么最后可能媒体出来的标题纷纷是《人性啊呼唤解放,99%中国人力争性交易合法化》。


三、从包皮被色诱看数据分析的精准需求



在大天二藏起来养伤的时候,东兴乌鸦手下的四眼仔为了找到大天二的行踪,派出了自己那丰满黄毛小太妹去色诱包皮,这一招就叫做精准。因为他如果派出几百人去满大街打听,性价比低又容易打草惊蛇,如果去色诱陈浩南山鸡,他们压根看不上这种胸大无脑的粗俗小太妹。而包皮呢?作为能接触到大天二信息的核心骨干,正是最好的突破点。

这就是在开始做任何数据分析之前,一定要先清楚自己最想要什么,得到想要的结果哪些数据是必需的,不盲目地扩展维度,那样的话只会让分析结果混乱不堪。

不管是对于一个网站还是对于一个应用来说,会有很多种数据指标,先要想清楚自己最关注哪个指标,然后再看跟这一指标强相关的是哪几个数据,最后再得出结论和运营方案。例如对于网站,老板最关注的是UV数据,那么在做方案的时候就要关注到站外流量最大的导入方、SEO关键词、第三方平台的分享量等。如果老板最关注PV数据,那么运营就需要注意用户浏览页面数、用户停留时间、用户的二跳页面等等。


四、我不是教你诈之数据陷阱

在很多人眼中,数据是最公正最客观最铁面无私的,恨不得把数据提升到顶礼膜拜的地步。但数据其实就是工作的一个伙伴,好的数据就是神一样的队友,不好的数据就是猪一样的队友。数据分析本身没有对错之分,只有合适不合适,合理不合理。(在基本的数学运算无误的情况下)

美国佐治亚州曾经在2011年和2012年陆续宣布了对亚特兰大市35位教育工作者的65项指控,这些人中,大部分是校长、年级主任。指控主要集中在考试舞弊。因为亚特兰大市从2005年开始,学生的各项成绩有了阶梯性的进步,最开始所有人都夸奖新上任的教育主管教导有方。

但是后来,州教育部门在做数据统计的时候,突然发现亚特兰大市学生的答卷上,由错改对的比例远远大于其他地方的学生。要知道从概率上来说,一个学生的答题因为其突然打通任督二脉,由错改对还有点儿可能,但是如果一个考场的学生涂改的痕迹全部都是把错误的改成正确的,这概率微乎其微。

就由这一点数据异常着手,从而破获了让整个世界瞠目结舌的亚特兰大考试舞弊案。最令人发指的事情是有一群老师在考试后举办了一个披萨狂欢派对,在派对上大家把学生做错的试题全部改成了正确的。


这才是教育界的业界良心啊!!!

如今的数据越来越多,陷阱也越来越多,有时玩弄下文字游戏就能让业绩看起来高大上起来。我有一个QQ群,群里一共有三位男士,在今年的某一天,其中的一位土豪朋友给他老婆买了一件生日礼物,是一辆保时捷SUV,价值120万。后来,我对老婆说:“在这个群里,每个男人今年平均给自己老婆的生日礼物价值40万人民币,你还有什么不满意的?”那天,家里的平底锅终于派上了用场。

曾经有某个应用的运营同学写过一份周报,“经过一周的运营推广,本应用的下载量提升了100%”。我看了之后对其崇拜之情油然而生,这就是力挽狂澜啊!后来,他酒后对我说:“其实我就是把下载量从之前的25个提升到了50个。”刹那间,我明白了,原来他只是在一个小的QQ群里推广了一下。由此可见,喝酒有害健康。

除了文字游戏,数据背后的产生过程也往往陷阱密布。例如一个高中理科班,里面一共有10个女生,平均罩杯是B,而在高二的时候,里面一个A罩杯的女生转学了,平均罩杯变成了C。那么从数据上,我们是可以得出这样的结论“从B罩杯到C罩杯,高中学习有利于女生身材养成”。

同理可得,矮子出去了,平均身高就提高了,差生出去了,平均成绩就提高了。所以未来在看到任何数据的时候,请不要马上就欢呼雀跃或者垂头丧气,先去想一想,数据合理吗?


五、我不是教你诈之图表陷阱



做一份数据报告,没有几个折线图条形图,都不好意思说自己是研究数据的。但是每一份高大上的图表背后,也会隐藏着不少的小秘密。

在上图中,所有眼睛没问题的人都能看出铜锣湾扛把子陈浩南从《古惑仔》第三部开始,他参与群殴的次数和单挑的次数都急剧下滑,一直到2000年,他都不打架了!如果有心人刻意地加一句解释“《古惑仔》第四部上映的时间是1997年”。那么估计很多不靠谱的数据分析家就要开始说“从陈浩南出手次数可以看出香港回归之后社会治安好转”“黑社会社团在97之后转型民营企业,金融战取代街头混混砍杀”“驻港部队让香港居民安全感倍升”……

实际上呢?实际上是《古惑仔》第四部战无不胜,里面冲锋在第一线的是和生番抢屯门的山鸡,陈浩南主要时间都在泡李嘉欣。而2000年版,名字则是《友情岁月之山鸡故事》,本身陈浩南在这里面就没有什么戏份。

同样的,在不少公关软文中,会让人惊讶地发现自己企业和对手企业的走势图的比例尺都不一样,最终会显得自己企业的曲线是那么高耸入云,而对手的走势是那么的飞机场。


六、把数据放在什么位置

东星五虎之奔雷虎,会在自己一个古惑仔的酒吧里放莫扎特的安魂曲,但是这悠扬的乐曲中,耀扬不会因为自己对莫扎特的喜爱就放弃摔死恐龙。

韦小宝将阿珂视为心目中的女神,但是他不会因为自己对女神的膜拜就放弃在丽春院的大床上为阿珂宽衣解带。

同样对于数据分析来说,应该对数据进行基于经验的理解和科学的计算,然后表达并传播出来,让其有利于下一步决策。如今的很多数据分析集中在了计算和表达上,但是忽视了下一步的决策。

无法对工作决策形成决定作用的数据分析,连花瓶都算不上。

要知道单凭数据,有时并不能改变现状,因为大家可能不相信你的话或者数据,在19世纪匈牙利医生塞麦尔韦斯通过大量的试验得出了结论“是医生未经消毒的双手才导致了产妇因为产褥热而死”,但是这结果一出,导致了医学权威纷纷跳出来指责他,他从而伤心地离开了维也纳。直到他去世的1865年,巴斯德的细菌理论才问世,所有人才正视塞麦尔韦斯当年的数据。

所以,在做任何数据分析之前,请先想清楚自己为什么要做这个分析,以及期望为哪方面的工作得到决策帮助。


七、尾声

其实本文非常适合起个名字叫做《如何用数据欺骗自己的老板》,如果你是打工仔,那么本文只是粗略地普及基本知识,更多的数据统计陷阱需要你在工作生活中不断地去发掘和完善,相信有一天,你会被老板钉在公司的耻辱柱上的。

如果你是老板……您看这种文章不怕影响到自己未来的上市计划吗?

当然,最后送给诸位一句古惑仔里的经典台词, “出来混,错了要认,被打也要站稳!”


作者 快刀青衣 微信公众号:kuaidaoqingyi520