尚德机构:大数据生产和场景化是AI应用的前提
2018-11-02 18:21 尚德机构 大数据 教育 演讲

“数据生产比数据算力更重要,应用场景比数据算法重要,尚德机构在AI领域会不遗余力地进行投入,不断提高效率。”

i黑马&火柴盒讯  10月31日,首届TEC 2018教育创想大会在京举行,尚德机构发言人在大会现场表示:“数据生产比数据算力更重要,应用场景比数据算法重要,尚德机构在AI领域会不遗余力地进行投入,不断提高效率。”

尚德机构发言人称,AI的原理和构想已经存在了几十年,现在才投入应用不是因为计算机理论的突破,而是源于工程上拥有了更多算力、找到了更高效和节约资源的算法,以及在海量数据源上的训练模型。不过,教育的互联网化和IT化还是处在初级阶段,线下机构受教学模式的限制,很难高频地收集学习数据;线上机构由于场景设计、数据收集等原因,最后处理和存储的数据也非常少。

其实,教育行业产出数据的可能性,是远远大于其他行业的。一些局部场景、头部机构拥有大量优质数据。据介绍,国内领先的在线教育公司尚德机构依靠两种课程和n类场景来产生数据,一是“重课”,一是“轻课”。对于成人用户来说,必须要通过“重”的套课来传递系统性知识,此外也要有“轻”的课程和工具来提高便利性以及用户粘性,二者缺一不可。“从数据角度看,‘轻课’产生的数据量是‘重课’的几何倍数。我们在这两类课程上构架n类场景,内部产生和处理的数据量也是呈指数型上升的”,尚德机构发言人说。

在应用场景方面,尚德机构通过AI筛查出最高频且占据试卷60%的知识点,为学员输出量身定制的、最短的学习路径;在理想情况下,学员可以节约60%-70%的时间。如果没有各种场景叠加,只靠算法是做不出这款产品的。

该发言人表示,AI能解决的是效率问题,但是AI解决不了动机问题。尚德机构通过娱乐化的直播教学、1对1的班主任制度以及线上社区等方式,为成年人构造出一个学习的压力场和动力场,提升学员的学习动机和有效学习时长。在尚德机构看来,学习动机比学习效率更重要。

在AI投入上,尚德机构认为“无脑投入”比衡量效益重要,“我们的产研投入在教育圈是非常领先的,如果以营收作为分子、产研作为分母看单位产研投入的话,我们更是遥遥领先。我们投入的力量是超越我们所处规模应投入水平的,所以我用了‘无脑投入’这样的词”,尚德机构发言人表示。

以下为尚德机构发言人讲实录

大家好,感谢鲸媒体的平台,我是尚德机构CEO,我是尚德机构最不会演讲的高管,我估计也是教育圈里面演讲最差的高管。所以说我在接到这个任务的时候我就想过来讲讲干货,我讲讲尚德机构在AI领域的实践,我们走过的坑,和我们的经验分享,一共四点。

第一点数据生产比数据算力更重要。

这是什么意思?大家都知道这次AI兴起是三个要素,一个是算力,一个是算法,一个是数据,这是大家聊得很久的。其实AI的整个架构几十年一直都没有变,理论是没有任何进步的,其实主要是这三个要素的进步。在这三个要素里面我们的观点,数据生产比数据算力更重要。什么意思?

我给大家看一个趋势,如果我们把全球的数据生产量,每年的数据生产量拉条曲线,会发现它是条非常陡峭的指数曲线。在2020年指数曲线全球数据生产量大概44个ZB,一个ZB是1024个EB,一个EB是1024个TB,一个TB是1024个GB。你大概估一下,44个ZB大概是10的23次方,什么概念,全球大概70到80亿人口,每个人一年产生的数据量大概是十万亿的数据量。这是全球数据的总量。

我们估一下教育数据总量是多少,全球所有的教育行业,一年产生的数据量是几个EB,我刚刚讲一个ZB等于1024个EB,几个EB是差一个数量级的。如果我们用教育行业数据总量除以全球产生的数据总量的话,可能千几、几万,但是教育的GDP占全世界GDP4%以上,所以这个发展速度是不平衡的。这会产生什么问题?

大家知道这次AI的进步,比如说语义的识别,是互联网产生海量的数据文本。语音识别因为电信和互联网产生了海量语音文本。图象识别是产生了海量的图像文本。积累数据在我们看来是整个教育行业非常非常重要的一件事情。而教育行业,互联网化和IT化的程度不是那么强的,就是对于一个非IT化和非互联网化的教育机构其实它有很多数据,但是数据收集不上来,很少,很难收集。但是IT化了之后、互联网之后可以收集更多。但是即使是互联网化的企业在收集数据的时候,也是数据产生但是数据不处理,浪费很多数据,这是该与行业的现状。当然教育行业有很多头部企业,很好的一些细分场景,也有一些很好的数据,但总体来说是这个现状。

我们应该怎么办?我觉得在AI化第一步就是我们如何去让一个企业生产数据。我分享一下尚德机构怎么做,尚德机构逻辑很简单,我们用两类课程加N个场景做的。尚德机构的特色我们是要教会一个人拿本科,教会一个人拿研究生,教会一个人拿职业资格证书,这是我们的套课。

我们在套课之外推出很重要的事情就是轻课。我们的轻课大家一般理解是学习化的过程,但是我们尚德机构是用户和数据双驱动的轻课。讲一个很简单的道理,我们看一个小时的长视频产生有价值的数据量和看N多视频的数据量和这个数据的价值量是成百上千个数据集,我们在轻课里面产生了N多数据量,同时对用户很好,因为它能加大用户的黏性和给用户产生很多其他的便利学习工具。

在这个情况下我们产生很多的数据,用这个数据去反哺众课。我们能对用户的很多行为预测,其实就是这一个逻辑,很简单,我们积累那么多的数据,数据是指数级产生,如果指数大于2.2,其实你一年的数据大于今年以前所有数据的总合。

我们积累这么多的数据量,会不会一个巨头、一个大厂商过来做几个月就比我们数据量大了,我们优势就没有了。这就涉及到N多个场景,这就是我们的轻课场景,场景不可迁移,A场景推断不出B场景,或者说A场景不能完全推断出B场景,A场景只能部分推断出B场景,我们通过这两种课程N个场景方式积累了数据,这是我们自己做的。

第二是应用场景比数据算法更重要。

这次AI算法进步总结起来是这样,其实它本质上是对强化学习算法的改进,什么是强化学习算法呢?它其实是在两个东西里面做平衡,一个是探索,机器到了一定路径的时候我要找N多路径,我要去探索走哪个路径。另外一个是干活,在一个路径下面往前走的数据的概率。其实当路径非常长了之后,其实每个节点都会产生N多的算力需求。这是以前我们的算力解决不了的问题。

其实蒙特卡罗法出现之后是把探索和干活中间的差值给极大的优化了。这背后到底是什么,如果所有路径的概率密度函数都是不波动的,其实数据算法没有办法优化,蒙特卡罗法其实是加速了密度函数的波动。是不是只有算法能够解决这个问题呢?不是。我们场景也能解决这个问题,场景也能调优算法。其实场景是另外一种算法和另外一种数据节点,我们通过对场景的优化,来优化算法。

我给大家举个例子,尚德机构我们做一件什么事情,我们叫做最短学习路径。最短学习路径是什么意思,比如说我们一个考试,叫做自学考试,你每考过一门课可能有一千个知识点的学习,这一千个知识点我们会根据每个用户行为找寻说你最应该学习300到400个知识点,因为这对用户非常有帮助。但是我们尚德机构每年服务学生量是几十万人,你通过几十万人数据量你没有办法算出来,这个数据量非常少,你真的要做深度学习做神经网络不是几十万的场景,我们怎么来调优?我们就不断往数据里面植入场景。

我们植入N多场景之后我们发现匹配算法越来越好,到现在我们最优的人,以前他可能学习100个小时,或者50个小时,我们现在能够节约70%的时间让他只使用30%的时候,我们推出尚德机构的AI班,这对用户来说是具有非常大的吸引力,就是我们的第二点应用场景比数据算法更重要。

第三点我们叫做学习动机比学习效率更重要。

成人培训和K12是不一样,K12的孩子是全职做学生的,成人是兼职做学生,K12孩子有家长监督他的学习,有同学陪伴他的学习,有老师天天监督他学习。但是成人不是,成人跟学生之间是不一样。其实我们在AI之外引导很多学习动机的事情,我们通过三个事情,第一个是一对一的班主任制度,第二个是线上社群,第三个是直播互动。我们通过这些事情给用户创造了压力场和动力场,通过这个压力场和动力场极大的提高学生的学习时间。因为我们有一个公式叫做学习效率和学习时常乘以学习效率,刚刚我们讲两点AI是提高用户学习效率,这点是提高用户学习时常,这是AI之外的。

第四点叫做无脑投入比衡量效益更重要。

什么意思呢,其实AI是个产业革命,我们看每次产业革命其实都是不顺利的。比如说大航海,哥伦布刚到美洲的时候,他以为它是印度,不重要,更重要的是哥伦布一生去了四次美洲,没有找回来金银财宝,最后郁郁寡欢在西班牙孤独的死在他的下房子里面。真正美洲给到欧洲、西班牙反哺的时候是几十年之后的金银财宝的流入。第一台纺织机出来的时候,其实纺织机的人工比它布的价值还要多,这是产业革命的宿命。jiao

尚德机构的逻辑是什么,我们有一个口语化叫做无脑投入比衡量效益更重要。我们有一千人的产品研发团队,大大大于我们体量应该有的正常投入,我们一千人在我们的全公司八大系统里面,每天源源不断的为我们数据中心产生数据,就是尚德机构每天产生数据量在成人里面遥遥领先。

讲了四点最后给大家分享一句话,贾里尼克AI大师的一句话,叫做“我每开除一名语言学家,我的语音识别系统的性能就提高一点”。除开这句话的极端性,其实大家all in AI,把资源砸进去,终究会开花。谢谢大家。

火柴盒观察 观察新教育