前微软科学家今年要创收1个亿
2018-09-12 18:48 DataCanvas 方磊 微软 Bing

数据科学平台像一个整车,并非单个零部件。

文 | 窦怡悦

Bing数据科学家回国创业

成立DataCanvas之前,创始人兼CEO方磊在美国博士毕业后,先后在微软Azure、Bing任职。在Bing期间,方磊曾先后担任数据科学家与数据工程师数年,在大数据分析、机器学习和数据建模领域拥有丰富的行业实践经验。

方磊在Bing任职期间,他发现微软内部有个系统叫Aether,可以帮助800多个数据工程师在同一个平台同时进行各种数据分析、提交任务等工作,具有可管理性、可高速运行、以及资源调配、提高工作效率等诸多功能,不会因为人员变动使得研发成果流失。

那么,为什么数据科学家需要这样的工具?数据科学平台能够帮助他们解决哪些问题?

B2B圈了解到,随着大数据深入发展,正与行业应用融合,大数据开始渗透到各行各业,企业对大数据人才的需求变得异常旺盛,这也就诞生了数据科学家这样的工种。所以,在2012年以后,数据科学家这种“人设”开始在行业里兴起。

但据麦肯锡预测,到2018年美国整体对于数据科学家的需求会超过49万,而目前能够满足岗位需求的数据科学家不足20万。

所以,一个新的工种或者新的领域的诞生,深入发展,伴随着的不足也开始逐渐显现。

方磊表示,数据科学家和产品经理一样,什么工具都不给他们,他们照样工作,但这里面会涉及多种维度的问题,比如效率的问题,工具最重要的任务就是帮助相关的人做相关的事情,并且能够提高效率。

“数据科学平台可以帮助数据科学家自动建立机器学习模型,同时可以调试优化模型,这就节省相关人员的60%的时间,所以,数据科学平台可以极大的提高工作效率。”

其次,企业不只有一个数据科学家,会有很多,这是一个团队,如果再大点,更是一个社区。这时候,需要为这个团队提供数据科学平台,打造一个协助的开发环境,方便团队在整个生命周期里协同办公。

“尤其是数据科学家团队超过10人时,痛点就很明显了:例如,当有数据科学家离职时,之前完成的工作很难发挥价值,新人无法在原有模型的基础上继续开发;同时,管理者对于数据科学家工作的进展情况很难把握,在量化评定上存在困难。

相比国外有Aether这样的工具,协助数据科学家在系统上协作,整个团队运转井然有序,不会因为人员变动使得研发成果流失。而在国内,数据科学家团队还是刚起步阶段,更别说数据科学平台这个国内空白的市场了。”

第三,一个完整的数据科学平台,包含训练、运行、监控、管理四个环节,覆盖一个数据科学家整个工作的生命周期流程。

“数据科学家利用工具平台,不仅是提高建模效率,或者全员协作,还要把建立好的模型放到企业生产业务系统里,观察模型运行状态,监控模型可能发生的问题,还得有效管理模型算法,做到及时更正修改。”

因此,在行业内出现足够数量的数据科学家之前,现有的这批人急需一种工具来提高工作效率。而“数据科学平台”的出现正是要解决这样的问题。

方磊认为,程序员有GitHub,设计师有AutoCAD,普通员工有Slack,数据科学家和数据工程师也应该有自己的协作办公平台,而DataCanvas就是从这个点切入,为数据科学家提供数据科学平台,帮助他们更好地建模分析,同时让管理层更好地认知到每个人的进展。于是,方磊决定回国创业,2013年成立了DataCanvas。

DataCanvas的定位是一家数据科学平台提供商,专注于大数据核心技术的研发,为企业用户提供端到端的大数据解决方案,帮助企业快速具备大数据分析能力。

对标Alteryx,转型提供私有云产品

其实,数据科学平台并非是新的概念,微软内部系统有Aether,谷歌、FaceBook也有相应的产品,而创业公司Alteryx也是这个领域的独角兽公司。

B2B圈了解到,Alteryx前身为SRC公司,成立于1997年,由Dean Stoecker、Olivia Duane Adams和Ned Harding共同建立。一年后,SRC发布第一款在线数据引擎Allocate,定位于地理信息BI(Business Intelligence),帮助客户进行空间分析。

为满足客户更加多样化的需求,2006年,SRC公司发布了通用数据分析软件Alteryx,帮助用户建立分析过程以及应用。

随着Alteryx品牌认知度不断提升,2010年SRC正式将公司名称改为Alteryx,并推出数据分析平台,随后与R语言深度集成,添加预测性分析模块。

与同赛道的其他数据科学平台产品不同的是,在Alteryx平台中其订阅中依旧提供第三方地图数据以及地理信息数据(人口普查数据、公司信息数据)的拓展选项,这与其前身SRC公司所经营的业务有很大关联,这样的不仅满足用户对数据科学平台的需求,也能满足其对空间分析的需求。

值得一提的是,Alteryx于2017年在纽约证券交易所IPO,上市后市值接近8亿美元,也成为这个领域的标志性事件。

同时,在2017年,Gartner也第一次公布了数据科学平台的魔力象限,意味着数据科学平台这个领域正式登上舞台。

此外,根据Forrester预计,今后两年内,数据科学平台的采用率将增至现在的3倍多,从目前的29%增至2018年末的69%

该机构推测,增长的原因是越来越多的企业很快就会认识到采用数据科学平台的益处。这些益处包括更好的客户体验、信息更充足的业务决策、更优秀的商业计划、更高的运营成本效率和客户黏度。

方磊认为,与国外相对成熟的市场不同,国内还处于早期发展阶段。“当时国内大数据行业刚刚起步,大部分客户还处于理解大数据概念阶段,更别说建立数据分析团队,对这样的平台价值一无所知。

而且在2013年-2014年这段期间,公有云市场也是刚起步,我们的最初版本是在AWS基础上,提供的服务。但是很多用户根本不放心把数据放到公有云上,担心数据安全。所以,一开始客户的接受程度并不高,我们也没有什么营收。直到2015年,我们转型做私有云,为金融、交通等企业客户提供产品和服务。”

产品+服务,提供全栈解决方案

DataCanvas具体打法是,运用机器学习+AI算法,为企业提供通用的数据科学平台,打造一个标准化的产品,帮助各行各业的数据科学家在一个平台上开发模型,并将模型应用到真实的业务中来。

同时,DataCanvas还会输出一些数据科学家指导企业客户使用产品,帮助他们做模型,甚至会联合打造模型。

在具体产品方面,DataCanvas数据科学平台,集成Hadoop生态圈开源产品,通过“流处理引擎+内存数据库+模型加载管理”的方式,为模型的正常运行提供了理想环境,使分析结果能在实际业务中得到运用。

据悉,DataCanvas平台包含做数据预处理(DEP),数据的分析和模型构建(APS),模型的实时运行及监测(RT),智能运维平台(MML)等功能模块,可以帮助数据分析师和数据科学家快速协同开发,实现模型管理和应用支持;还可以帮助模型实现生产化,最终落到应用场景中去。

简单来说,DataCanvas平台旨在囊括数据科学家的所有工作内容,为企业提供全栈解决方案。首先,平台可以提供各种工具,帮助用户对海量多源的数据进行整合和研究,以及模型的构建与部署,让这些模型的输出结果更加可行。

其次,平台封装一些共性的模型工作模块,科学家在平台上可以自己取用,提高效率。

第三,当数据科学家做出模型后,平台可以让模型进入“投产阶段”,即模型生产化,每发生一笔交易就会调取模型去进行验证这笔交易是否安全,这个模型一开始并不准确,但是随着交易发生的越多,数据科学家就会据此来不断校正模型使之更加准确。

这样一来,即使当企业中无数个模型在同时运行时,平台也能保证运算安全稳定的进行。

值得一提的是,DataCanvas不仅仅是给已经有了数据科学家团队但是存在痛点的公司服务,对于那些有挖掘数据需求但是没有数据科学家团队的企业同样适用。

谈起数据科学平台这件事的门槛,方磊表示,主要体现在团队起始时间点,长期实践积累的过程,还有要完整覆盖整个生命周期的流程。

“数据科学平台像一个整车,并非单个零部件。要做好一个数据科学平台,需要长期的积累,更注重专注、聚焦。就像一个完整的APP模板,不能一蹴而就,靠一页页面解决很多问题,需要靠长期积累,多个页面组合而成,这样才能做到极致。”

聚集金融行业,覆盖90%的银行客户

目前,DataCanvas的客户主要集中在金融、交通、IOT、政务等行业。其中,金融领域是DataCanvas重点布局领域,覆盖率达到90%,主要集中在大企业客户,例如大型商业银行、股份制银行、城商行、大型保险证券公司等,客单价在300-500万之间。

而DataCanvas数据科学平台在银行业的适用场景主要为营销、运营、风控等三大方向。营销上,适用场景主要是理财推荐等。运营则更多在网点运营上,如现金储备优化(ATM加钞等)。

风控上,银行通常自有一套风控模型,DataCanvas能帮助客户将这套模型落实到实时计算的环境中去,达到实时监控等效果。具体的应用场景有银行卡防盗刷、ATM取现监控、小贷风险控制等。

以山东某银行为例,据悉金融行业是生产、消费数据最多的行业之一,面对如此庞大的数据量及多样化数据,传统关系型数据库已经无法满足需求,金融行业面临巨大转型。

而某银行力图想建设一个低成本高效率的数据中心,能够存放历史数据并完成所有业务数据的快速查询;同时,能够接入和整合外部数据资源,对业务数据进行挖掘分析。

针对这些痛点,DataCanvas通过大数据平台解决方案,实现了银行PB级数据的快速存储和横向扩容,同时满足了传统关系型数据无法处理的复杂数据分析需求。

其次,平台支持流数据和批量数据导入至历史库。银行历史数据采用SQL查询,SQL查询性能单机数据扫描350MB/秒。

第三,统一客户视图,基于机器学习的算法模块(平台提供140+算法模块)和可视化图表,对存量客户数据进行分析,自动构建用户画像并进行精准营销和消费预测分析。

这样一来,某银行可以结合实时、历史数据进行全局分析,风险管控部门可以每天评估客户行为,并对其信用卡额度等进行调整,使业务能力显著提升。

据悉,截至2018年6月底,DataCanvas在国内建立了近百个大数据应用案例,是国内市场落地案例较多、应用范围广泛的大数据科学平台提供商。

例如,交通银行信用卡中心、浦发银行、山东城商行联盟、中车等大中型企业都在使用DataCanvas数据科学平台。

同时,DataCanvas2017年营收实现5600万,预计2018年收入突破1亿,较2017年增长80%-100%。在采访的最后,B2B圈问了方磊一个问题,如果按照10分为标准,能给自己的产品打多少分?

“估计是8分吧,那两分主要差在两方面,第一,因为我们是打造的全栈的解决方案,很多细节的模块功能还需要继续打磨,产品要持续演进。

第二,目前的产品更多是以企业管理者角度出发,接下来我们的战略要朝着To Person角度出发,把产品做得更轻量化,真正的为企业的数据科学家提供便捷、易用、提高效率的产品。”

*本文系B2B圈原创,作者窦悦怡。欢迎添加B2B圈官微小妹(ID:heimahui2),加入B2B行业VIP社群(请备注姓名-公司-职位,无备注者不予通过)。