你不能不知的最夯人才“资料科学家”- 他们正在摇滚未来的IT产业!
王根旺 王根旺

你不能不知的最夯人才“资料科学家”- 他们正在摇滚未来的IT产业!

exabyte1

21世纪最性感的工作

在Big Data时代下,资料科学家不但被《哈佛商业评论》誉为21世纪最性感(Sexiest)的工作,这种关键人才更是能摇滚未来世界的巨星。

2012年,Strata资料科学会议(Strata Data Science Conference)在加州的圣克拉拉(Santa Clara)举行。会中,大家交谈时都先问:“你的索引时间(index time)多少?”鸡尾酒时间,还有名为“Hadoopery Hooch”、“Alcohol-Stat”以及“Numbers Numb-er”的手调饮料。

但,会议上最抢手的酷玩意是一件黑色T恤!上头以白色字体写着:“天啊!瞧瞧你手边的Big Data!”

在骇客道场(Hacker Dojo)教授专业者资料探勘、前麻省理工学院航太工程教授麦可.鲍勒斯(Mike Bowles)形容,“这让我回想起九○年代,那时网路教人兴奋,现在是Big Data教人兴奋,你能够明显感受得到他们的热情。”

  资料是新石油

六年前,大型零售商特易购(Tesco)会员卡设计者克里夫.杭比(Clive Humby)曾形容资料是新石油,意思是指资料价值必须从原油中提炼,现今“资料是新石油”这句话在Strata会场成了流行语。

未来学家暨矽谷中坚份子提姆?欧莱礼(Tim O'Reilly),也是举办Strata活动的欧莱礼媒体(O'Reilly Media)创办人暨执行长,忙碌地在展场里走来走去,不断与各方人士交谈。

他指出,资料所构成的宇宙,一直带来惊奇。“之前,我发现资料开始占据主导地位时,并未想到可能因而诞生的公司,也没有想到手机会呈现爆炸性成长。这些资料子系统,已经开始整合到我们运用的作业系统之中。资料的量已经多到超乎过去所能想像的。”

矽谷投资家、创业家暨PayPal共同创办人马克斯?列夫金(Max Levchin)指出,不久前,出现了一种新概念,是由全职资料管理员或资料控管人来担任机器学习系统的“另一半”。

“过去,只要你是个不错的程序设计师,就比别人多深入了机器学习一点,或者也可以说,你是个不错的建模师,那样也就够了!但现在已经不够,还得看能否取得资料,”马克斯?列夫金说。

曾预测资料将成为Web3.0基础的LinkedIn创办人雷德.霍夫曼(Reid Hoffman)表示,市场将会出现新服务与系统,引导大家探索存在于生活中的Big data。

“从我们输入到社交网路上的外显资料、存在于手机与活动中的内隐资料,以及根据外显与内隐资料得到的分析资料,都包括在内。”他形容,这些服务可以让生活更为舒适,无论是开车与步行的实体世界、书籍与电影的娱乐世界,或职场,如工作中的资讯与机会都是,“诸如LinkedIn与推特等既有企业,以及新企业,都会推出Web3.0的新产品。”

 从幕后现身的资料科学家

这场第二年举办的Strata会议,是全球科技业目前最抢手人才的“资料科学家(Data Scientists)”从幕后现身到阳光下的时刻,大家很开心能与同行齐聚一堂。“如果和太太聊Big data,不用多久,她就会把你丢在沙发,起身走人。”一位与会者说。

在准备“从预测建模到最佳化:下一个疆界”演讲简报的空档,Kaggle(卡格)首席科学家杰若米.霍华德(Jeremy Howard)穿着他那双橘色的Vans(凡斯)牌鞋子,以及背后写着“资料科学”字样的帽T,四处走动。

霍华德被视为资料科学家的代表人物之一。他任职的公司卡格所提供的“预测建模竞赛平台”,让用户们可以透过它解决资料问题。他顽皮地笑着,引起每个人的注意,介绍人们彼此认识,享受着这个他协助创造出来的世界。

“资料科学家都已经默默做很多年了,现在大家在同一旗号下相聚,做的人并没有增加太多,只是大家找到了彼此,”霍华德与其他同为资料科学家的同行围桌而坐。这时,哈尔.韦瑞安(Hal Varian)带着他的早餐餐盘走来,出于尊敬,现场一片静默。

韦瑞安是柏克莱大学的荣誉教授,也是Google的首席经济学家。早在这些资料科学家有许多都还没出生前,他就已经在和大量的资料打交道。但霍华德并未因而感到怯懦,“嘿!哈尔,你可以操作Google Correlate给我们看看吗?”

Correlate是Google相对来说较新推出的公用程序,它是可以找出与现实世界趋势相关的搜寻模式。例如,网友们爱用的搜寻关键字,会随着时间改变,也会与其他类似模式的搜寻关键字进行配对。

资料科学家很乐见这样的模式追踪功能,因为它有助于Google打造出受欢迎又好用的应用程序“Google 流感趋势”(Google Flu Trends),让医生与研究人员能够搜寻与流感相关的趋势,迅速而准确地判断流感??的爆发。

韦瑞安打开笔电,在Google Correlate的搜寻列输入“Eric Sc??hmidt”(Google执行董事长艾瑞克.施密特)。

第一个搜寻结果是“Schmidt Google”,相关性超过0.89。这并不令人讶异,因为施密特就是Google的执行董事长。接下来的几个关键字也一样平凡无奇,包括“Eric Sc??hmidt Google”、“Google CEO”、“Google CEO Eric Sc??hmidt”等。

真正价值在于解读资料能力

接着,快到底端的地方,出现了相关性0.61的“Starbucks size”(星巴克咖啡大小),再来是“male yeast infection”(男性念珠菌感染),搞得大家哄堂大笑。“我不知道那代表着什么意思,”韦瑞安道。

大家开始猜测原因,最后发现是加州一位医师也叫艾瑞克.施密特,他专精于治疗男性念珠菌感染。Google Correlate不会知道两人有何不同,它只懂追踪资料里的趋势。

最后一项结果是相关性0.60的“disco fries”(起司肉酱薯条),它究竟如何与施密特产生关联?这就得仰赖资料科学的判读了!

正是因为如此,资料科学家成为Big Data时代的先驱,因为真正有价值的不是资料,而是从资料中解读出意义的能力。

根据2011年“Extracting Value From Chaos”(从混乱中撷取价值)研究报告指出,全球资讯量每两年就会成长一倍。IDC也估计,2012年上网设备将达十亿台,2016年会再多一倍。

要从这么多座巨量的资料山里,解析出有意义的结果,已成为全球科技业致力追求的新目标。

企业现在也了解,要把资料当作跟原物料、资本、劳力一样重要,它们都是经济投入,所有丰富的资料,包括用户的偏好、所在地与行动等,都得经过解读,否则完全无价值可言。

资料科学潜藏着庞大的可能性,它一直在发掘许多这世上我们从未知晓的事。霍华德指出,资料不容人有任何胡扯的空间,“大多资料都在告诉我们一些早已知道的事,但资料还是不时会揭露一些新资讯。你可能会碰到有人和你争辩,你可以秀出资料,它不会说谎。”

一开始,先是有了资料,但是却难以解读。

在四○年代晚期,与约翰.冯纽曼(John von Neumann)设计早期电脑,想出“位元(bit)”一词的统计学家约翰.图基(John Tukey)倡导使用“探索性资料分析(Exploratory Data Analysis)”的系统。这套系统主张,庞大而复杂的资料组,应该使用解释性的图表做简单摘要。

换言之,统计学并非只是数字游戏,也不是只为存在而存在,而是能够有应用到现实世界中的潜能,看看数字的背后能够讲出的故事。

1972年,图基开发出“PRIM-9”的电脑程序。PRIM-9是缩写字,代表着在多达九个层面当中,将资料图示(picturing)、旋转(rotation)、隔离(isolation),遮罩(masking)。该程序较当代先进许多,也让用户们能够看到资料呈现在九种不同的图象角度中。

资料科学家的光明时代

几十年以来,在一片由数字构成的荒野中行走时,资料科学家们的随身工具就只有它而已。

二十多年前,霍华德开始走入这一行,最早是在管理顾问公司麦肯锡担任分析专员,后来又待过几家大型的个人金融银行与保险公司。“那时已经有Big data在出现了,这些机构都有几千万名客户,还有耗费大量资金存放的好几个仓库的资料。”但他发现这份工作很孤独,“我开始在麦肯锡服务时,我就等于这份工作,是我发明了那个职位。”

渐渐的,产业开始转变。

霍华德开始投入这行时,需要一个满是机器的房间分析资料。随着运算成本降低,程序设计师们也开始开发一些开放原始码的资料仓储软体。网际网路的问世,意味着企业也会面对愈来愈多必须储存与分析的资料。

而且,必须消化数字的不再只有大型金融机构,从零售企业到公共卫生的非营利机构一样都需要。

Via ? wired

IT产业 资料科学家
赞(...)
文章评论
匿名用户
发布