【抄本质】大数据的前世今生,以及它所参与的那些“著名战役”!
2012-12-25 17:50

(本文为业内著名工程师Ms. Valentine's Day所著)

Big Data 是先知“关键报告”电影成真不远矣

最近一直在报章杂志上看到讨论有关《Big data》相关的应用,横跨金融交易、电子商务、决策制定、广告行销、医疗用药等。以前在几乎没有听闻这类型的技术,所以经过笔者调查把目前所知跟读者分享。《Big data》其实是大数据资料库加上处理方法的一个总称,其中包含资讯领域的《Machine Learning机器学习》、《Data Mining数据分析》、《Artificial Intelligence人工智能》以及现在最火红的《Hadoop档案处理系统》,这些技术由于近年来计算机处理速度与存储装置的性能快速提升,使得即时处理大量资料变成可能,存在已久的各领域资讯技术相互融合,在这个当下爆出应用火花,甚至世界各国的教育当局,都开始考虑是否要将海量资料的处理分析技术,成立科系或是学程来因应未来数年极可能会因为此领域的急速成长而出现的人才缺口。

Big Data 名称的由来

大数据即Big data,名词在2010 年由IBM 所提出,而大数据的特性包含三种层面: 巨量、即时性及多样性。

巨量– 大数据的特色就在于: 庞大。政府,企业以及及时敢测器等资料包罗万象,很容易便达到数TB(Tera Bytes),甚至上看PB(Peta Bytes)之谱。

即时性– 大数据通常具有时效性,一旦串流到运算服务器就须立即使用,即时得结果才能发挥其最大价值。

多样性–大数据的范畴不仅止于结构化资料,还包含各类非结构化的资料:诸如文字、音讯、视讯、点击串流、日志档等等。引用来源-IBM

而处理大数据《Big data》的技术,现今最火红的则非《Hadoop》莫属了!

什么是Hadoop ?

根据《Hadoop》的创办人Doug Cutting所言“Hadoop”就只是帮一只黄色的填充大象取的名字而已,没有什么特别的意思纯粹只是好记而已。而《Hadoop》技术的诞生则是因为网络资料的爆炸性成长,传统的档案系统无法负荷储存跟分类,从而根据Google搜索的相关的学术论文为蓝图,演变成一套如何储存、处理、分析TB(Tera Bytes)甚至PB(Peta Bytes)等级的资料处理方法。

Hadoop是百分之一百免费由Java程式语言所编写的Open Source,一种从根本结构上与现存技术不同且先进的储存、处理、分析大数据的技术,执行Hadoop使用者无须仰赖昂贵的或是具有专利的软硬件平台,Hadoop可以在便宜且工业规格化的服务器群上执行平行资料处理以及分析,有了Hadoop没有什么资料量是过大的,在现今资料量爆炸的时代企业、学术、政府等组织可以利用从之前被认为是无用的资料找出从来没被发现的参考价值。

《Hadoop》基本上可以处理任何资料型态,不论是结构化或是非结构化,log纪录档、照片、声音、通讯纪录或是电子邮件。不管是什么资料你都可以汇入《Hadoop》Cluster并且不用作任何前处理,它就会帮你回答你从来不曾想过的问题!《Hadoop》把看似毫无关联的资料背后所隐含的讯息呈现出来,使用者便可以根据更多的参考资料做出对应决策了。

以下就几个实例来跟读者分享目前《Big data》现今的应用

IBM Watson 医生诊断辅助系统

Big Data也可以当医生?IBM Watson机器人也可以利用来协助医生听诊,原因是这样,医生可能跟你讲五句话,就差不多确定你是生什么病了,接下来可能都是跟你闲话家常,而已经有一些美国的医疗机构为了避免医生的疏失,开始与IBM合作,现在Watson会陪同医生听诊,听诊完它会透过病征列出可能病患可能患疾病是哪些,医生可能问诊完想到的病征可能只有三、五个,可是Watson会跟从大数据分析的角度帮他列出高达20个病征选项,这大大的可以减少医生疏忽的机会,医生看了Watson的分析报告以后就可知道,可以再多问病人什么问题来缩小看诊判断误差。尤其是远距医疗时,这个服务特别受用。不过Watson机器人主要还是做协助的工作,而不会告诉你,就是这个病,最后要把关、负责任的还是医生本人。

美国平价连锁零售业商场(Target) 猜你怀孕了没?

Target从女性消费群体的购买行为,研发出一套领先同业的“怀孕预测模型”。Target的资料分析专家发现,当某些女性从购买有香味的乳液,转而购买无香味的乳液,或是开始采购叶酸、钙片、镁与锌等营养补充品,他们就会大胆推测这名女性可能已经怀孕。塔吉特的专家将过去女性消费族群的资料进行串流、分析,研发出怀孕预测模型。这个模型会列出25种孕妇最有可能购买的产品,并依据女性消费者的行为,计算出他们的怀孕预测分数。塔吉特一旦发现这名女性消费者可能已经怀孕,就会立刻寄出相关商品的促销广告。塔吉特甚至还会分析这些女性通常在一星期中的哪一天出门购物,并且在前一天就抢先寄送广告函给她。(上述引用自华文企管网)

Amazon 以及Netflix 网络消费经验

我想大多数人的网购经验都来自淘宝或是京东,如果你曾在Amazon购物过其经验绝对截然不同,一开始你一定会看到一些鬼打墙无厘头的推荐,他们会根据你现在浏览的商品跟你说曾经浏览过这商品的人又看过了什么,或是买这个商品的人他们也会购买什么商品,然后给你一份推荐清单,其中还包括你自己的浏览以及购物纪录,这种推荐方式是根据历史购买纪录计算!根据统计资料这种推荐方式让Amazon在一秒钟能够卖出79.2样商品呢!

根据2012年的数据,美国最大的线上影音出租服务的网站NETFLIX统计,每十部他推荐的影片大概有7.5部以上,使用者会选择接受这样的推荐,机率非常之高。更神奇的是,你看完这个片子,你可以针对这个片子给几颗星的评价,在你下完评价之前,他已经对你做了预测说你上下不会超过半颗的误差。这些计算是根据你收视这些片子的喜好,包含导演、明星的组合,当然他背后有个演算法,他可能是Data Mining资料探勘的方式,或是加上一些Machine Learning机器学习的功能,其实这都是长期对户的行为做《Big data》分析之后淬链出来的。

什么别闹了!? 《Big data》除了做电子商务还可以挤牛奶做《Big dairy》?

Big Data 也可以用来挤牛奶

根据《彭博新闻周刊》报导,这是一家牛乳农场的故事,因为这个农场的两个帮手孩子要到城里上大学,挤牛奶人手会突然不够,这个牛乳农场决定率先使用最新的Big data 技术,来帮助他们,他们使用一个机器人来挤牛奶,这个机器人会自动找出乳牛乳头,装上挤奶装置,机器人可以记录每一头乳牛,长期分泌牛??乳的统计资料,找出最佳化的挤奶策略。以前他们要分析这些牛乳资料,都要先把样本送到有网络连接的地方,在把资料传送到可分析的实验室里面,可是现在只要用智能手机,他们还搭上智能手机的APP还有外部感应器,连上云端系统,就可以直接分析这些牛乳资料,知道生菌数,或是乳牛是否健康,有没有感染乳腺炎。他们这套仪器要价20万美金来挤牛奶,但是从2007年到2011年,一头牛可以多生产出1142磅的牛乳,因为Big Data挤牛奶也可以变的更有效率,也更不花人力了。

另外,不晓得大家有没有常常塞在车阵中动弹不得,看着导航预计抵达的时间一分一秒的往后推迟的经验,却又不行要求导航机转换道路的窘况,根据在卫星导航业工作的朋友表示欧洲的卫星导航大厂早就已经把大数据分析的概念导入路径规划的的演算法里面了,可以替驾驶预知交通装况!

TomTom 卫星导航HD Traffic

TomTom利用实时监测超过八千万支匿名的行动电话,一百万台以上的TomTom Live卫星导航机在路面上的移动速度,搭配RDS-TMC的道路交通资讯系统,建构一个完整而且即时的交通资料库,透过GPRS将即时的道路资讯,例如某路段的现在平均速度、红绿灯交换频率、路段在每星期不同日子的平均速度、道路施工状况以及事故状况的资料,以每两分钟一次的频率及时推播给卫星导航机甚至装在Apple iphone或是Android phone上的TomTom导航app,路径规划演算法便可以根据现在的路况做即时修改,提供驾驶人一条现在的最佳化路径,节省宝贵的时间,即便你身陷车阵当中,用路人也可以精准的知道delay的时间,目前根据统计资料,使用此服务的驾驶平均可以节省15%的行车时间!

上图引用自《TomTom Live Traffic》为纽约曼哈顿的即时路况资料,传统的最短或是最快速路径规划法,搭配Real-Time路况资料帮助驾驶避免进入壅塞或是施工路段。

左图为最短路径规划,右图为真实用路时间历史纪录,可以看到红绿灯的多寡频率以及真实行驶速度大大影响了路径规划的策略呢!引用自《TomTom》

此外这种运用实时资料运算建立的卫星导航路径规划,不仅仅可以用在一般开车的用路人身上,更可以帮助运输业建立车队管理系统,怎么样更有效率的规划车队分配,最佳路径规划(多中继点路径规划)让运输业者可以用最小的车队规模,最少的油耗量,达到最佳的运输量以及最精准的递送时间,在全球一片减少节能减少碳的声浪中,《Big data 》的技术帮助TomTom宣称自己绿色企业,也帮助??其其解决方案使用者加入绿色企业的一员。

而笔者没想到的是,用大数据也可以成为赢得大选的利器之一——美国的奥巴马倒是走在时代尖端。

Barack Obama 用Big Data 打赢大选

“数据分析Data mining ”在奥巴马竞选中发挥关键且重要的作用。奥巴马竞选阵营的数据分析团队为竞选活动搜集、储存和分析了大量数据,帮助其竞选团队成功“ 策划” 多场活动,为欧巴马竞选筹集到10 亿美元资金。(摘录自美国《时代》杂志网站报导)

上图源自《The Guardian》为欧巴马在胜选后第一张分享到推特上的照片

今年春天奥巴马竞选阵营的数据分析团队注意到,影星乔治?克鲁尼(George Clooney)对美国西海岸40岁至49岁的女性具有非常大的吸引力。她们是最有可能为了在好莱坞与乔治克努尼和欧巴马共进晚餐而自掏腰包的群体。而最终乔治克努尼在自家豪宅举办的筹款宴会上,为奥巴马筹集到数百万美元的竞选资金。

不只在西岸竞选团队同样希望东海岸也能如法炮制“乔治克努尼效应”的成功经验。最后《Big Data》数据分析把箭头指向了莎拉?杰西卡帕克,于是一场在莎拉?杰西卡·帕克的纽约West Village豪宅与欧巴马共进晚餐的募款竞争便诞生了。

对于普通民众而言,他们根本不知道这次活动的想法源于奥巴马数据分析团队对莎拉?杰西卡帕克粉丝研究的重大发现:这些粉丝喜欢竞赛、小型宴会和名人。竞选主管在此次选战中打造了一个规模五倍于2008年竞选时的数据分析部门,这个由几十人组成的数据分析团队的具体工作被严格保密,有关这个团队的更多细节是不会对外透露的,因为欧巴马竞选阵营牢牢固守着他们自认为比罗姆尼竞选阵营有优势的地方:即“Data”。

上图为奥巴马的数据分析团队工作情况源自《时代杂志》

这种协助筹款的技术随后又被用于预测投票结果,使他们可以准确了解每一类人群和每一个地区选民在任何时刻的态度。这带来了巨大的优势。当第一次电视辩论结束后,选民的投票倾向发生改变。而数据分析团队可以立即知道什么样的选民改变了态度,什么样的选民仍坚持原来的投票选择。再者,每天晚间高达6.6万次大选结果被模拟以考虑多种不同情况,并于每天上午获得结果,了解在这各州胜出的可能性,从而针对性地分配资源。

这种由根据数据分析的决策方式在奥巴马成功连任的过程中发挥了重要作用,从前依赖预感和经验的华盛顿特区竞选专家地位正在迅速下降,并且被善于利用大批量数据分析的专家和程序设计师所取代。在政治界《Big data》的时代已经到来。

Linkedin 等于职场版的Facebook?

不知道各位读者有没有使用Linkedin的经验,笔者曾在海外工作过一段时间,发现老外常用专业工作上的社交工具叫做Linkedin,刚好也有机会在此网站上面登录,Linkedin用户可以把自己的专长工作技能、学经历、论文专利发表等相关资料放在个人档案中与大家分享,就像Facebook一样大家可以互相连结,甚至连队朋友的专业技能类似“按赞”的〈Endorse/背书〉功能也有

Linkedin到底跟Big Data有什么关系呢?我们可以从页面观察到的数据分析包括:

谁在浏览你的档案

在过去15天中有多少人浏览过你的页面

在过去20天中你的档案出现在关键字搜寻中的次数

正在浏览的你自己资料页面的人,他们又浏览了哪些人的页面

根据的你档案你可能会认识谁

你的工作技巧在现今是当红还是退烧

各种统计资料的呈现,可以说是族繁不及备载,用户可以根据这些资料修改或是增进自己履历页面的丰富度,聊解你自己目前在就业市场的竞争力,或是比较跟你具有类似背景的人他们的学经历又是如何,甚至可以跟他们互相连结切磋职场心得,当然履历经验越是丰富的的人常常就会有猎人头公司的成员跟你联络或是推荐职缺给你!Linkedin目前是国外相当火红的职场社交网站,国内目前的普及度还是不高,不过在外商圈的员工使用率算是比较活跃一点。

从上述的例子看来,Big Data的应用还真是包罗万象,我想不久的将来,很多六、七年级生小时候的回忆《闪电霹雳车》动画里面风见隼人的智慧驾驶辅助系统“阿斯拉”出现在路上,或是《关键报告》里面的预测犯罪的先知也成为警方办案的利器我们应该也不会觉得奇怪,就让我们拭目以待吧!