七牛发布新技术解决“空有大数据难应用”问题
2015-08-31 09:00 七牛 大数据 云服务

8月30日下午,由云存储服务商七牛主办的D-Future数据时代峰会在上海结束。在为期两天的大会上,数十位数据领域的从业者和专家等登台分享了互联网时代如何处理和应用数据的经验和案例。七牛也发布了针对在线教育、旅游、娱乐、硬件、广电、O2O及安防七大行业的数据服务解决方案和DORA数据处理平台。

巨量非结构化数据的应用难题

在时下“互联网+”概念火热,各行各业都在想方设法将业务和产品联网的背景下,相应产生的巨量数据该如何处理,又有何价值?七牛CEO许式伟认为企业在应对数据时面临几个重要的问题:

一是商业在连接互联网之后,产生了巨量的非结构化数据。那些人类自然表达的语言文本、图片、音频、视频等媒介,都是非结构化数据。“现在世界上正以每三年翻一番的速度增长,而这其中95%以上,都是非结构化数据。所以这个数据的存储量是非常非常惊人的,如此惊人的数据,应该如何存储,如何让它不丢失,如何进行分析和挖掘,是个很重要的课题。”

紧接而来的问题就是这些数据天然是人非常容易理解的,但对于计算机来说很难理解。“所以在交互上,我们发现它仍然有非常巨大的提升空间。我们知道有语音的识别,有视频或者图片里面对于场景的识别等等,但是这些新的分析方法都还非常的早期。这些新的分析方法如果能够往前走的话,这个数据时代会有更大的想象空间在里面。正因为我们的分析能力还很原始,所以今天几乎所有的非结构化数据都没有二次分析。用户每一次沟通,每一次交互过程当中,沉淀了大量的信息,这些信息如何挖掘,也是很重要的课题。”

业务上网之后,可以把所有用户的行为记录下来。运营分析的背景也就不再是取样数据,而成为全量的用户行为记录。“对于任何一个互联网公司来说,每天都在产生上千万上亿的调查问卷。而这些调查问卷,如何对你的商业进行改进,这是一个非常重要的课题。也是我们今天为什么会谈大数据,会谈精益运营的原因。”

许式伟把七牛定义为“最开放最完备的数据服务供应商”。“我们刚刚分析了非结构化数据,分析了日志相关的一些挑战,这些挑战绝对不是七牛一家公司所能解决的,我们希望有志于去提升这个数据的应用价值的企业,都能够和七牛一起,共同开拓这个世界,而不是七牛单独一家去做这样的事情。”许式伟说。

用技术构建一个全息商业模型

所以在此次大会上,七牛发布了针对在线教育、旅游、娱乐、硬件、广电、O2O及安防七大行业的数据服务解决方案和DORA数据处理平台。

自2011年成立以来,七牛平台上已累积28万企业用户,在与用户一次次的沟通中发现,如果能让用户更好地使用现有云服务去解决架构中的痛点,更完美地结合现有的云服务和自己的业务模块,这样的解决方案才能为用户带来真正的价值。于是,七牛采用微服务化的设计理念,对用户应用场景和痛点进行分析、模仿、优化,设计出了专门针对互联网时代软件架构(BMCS)的解决方案。

互联网时代的软件架构(BMCS)包括客户端和服务端两个部分,客户端包括浏览器和移动设备,而服务端则包括云服务和用户私有服务。在服务端,七牛采用微服务设计模式,提出组件即服务(Components as a Service)+场景化模式(Pattern)结构。

公有云时代的服务普适性很强,而用户所需要的解决方案必须是完整的一套体系。组件即服务即是将诸如数据库、存储、消息系统、全文检索系统、邮件发送系统等基础组件抽取出来进行标准化,为用户的技术细节提供服务,这时,用户需要做的仅仅是根据业务场景和行业痛点,画出架构图。

场景化模式则是让用户考虑如何将组件整合成一个服务。当越来越多的组件被云化以后,从想法变成产品的过程将变得更加顺利,这时只需要将相关的组件组合到一起即可。因此,场景化模式将成为产品能否快速上线的关键。

每个行业都有其设计场景,如O2O的设计场景就包括垂直社区、美业导购等,七牛根据每一个场景设计了其解决方案。通过行业和业务场景的判断,对用户进行痛点分析,在用户业务架构中总结出共同点,并根据痛点设计出解决方案。例如,移动端用户有很多照片和文件需要跟客户端同步,这时,将同步服务独立出来则可以是一个新的服务,而这个服务作为一个新的候选组件也能进一步简化解决方案。目前,七牛已有的基础组件包括对象存储、富媒体计算平台、网络加速平台和计算平台。在这些基础组件服务之上,七牛已经挖掘了一些上层组件,如直播服务、云盘同步服务及大数据分析类服务,还有与七牛合作伙伴共同推出的个性化推送服务、APM服务等。

DORA则是七牛基于容器技术研发的数据处理平台,拥有七牛自主研发的容器调度系统和任务队列系统。容器技术具有轻量化的特性,让DORA的计算资源伸缩更迅速,给软件的升级流程、灰度发布、回滚等部署问题带来很大便利。容器调度系统性能高、可靠性高,为实现高效的计算力伸缩提供保障。这对每一个用户来讲,最直观的价值是处理速度的提升以及有效保障自有业务的高可用。

任务队列系统引入了公共队列和私有队列的概念。公共队列采用先来先用的原则。对于成本优先的用户,可以考虑这种方式。只要合理地安排好数据处理的时间段,避免数据处理高峰期,充分利用共有队列,就可以有效降低数据处理成本。而私有队列则可以帮助用户解决任务优先级的问题。

依托扎实的底层技术,DORA颠覆了自定义数据处理计算的管理方式。用户不再需要配置或管理单一的虚拟服务器,DORA将用户从基础设施的问题中解放出来,真正做到零运维。同时,DORA为用户提供了按需弹性伸缩的计算力,用户可以根据自己的业务需求和策略调整弹性计算资源。并且由于基于容器技术,DORA提供了高自由度的开发语言环境,并可以无缝衔接用户原有的业务技术栈。这些特点和作用可以有效降低用户的成本,让用户用最经济的姿态开启自己的数据处理服务。

除了七牛丰富的数据处理基础服务,如图片的转码、水印、原图保护、防盗链等,以及音视频的转码、切片和拼接等。为了提供更为丰富的数据处理服务,DORA也为第三方服务商提供了一站式计算运营系统,涵盖从研发、测试、到上线发布与运营的完整流程,并开放强大的就近计算能力,支持各类围绕数据的第三方服务的接入,以及用户自定义的数据服务开发,形成围绕数据管理展开的生态体系。DORA平台上的用户可以直观便捷地管理自己的应用,按需使用DORA上的服务。各类使用、成本的统计信息也将一目了然。

这一决策也体现了七牛CEO许式伟在演讲中对七牛的定位——“构建一个完整的技术栈,构建一个全息的商业模型。”