今日头条副总裁马维英:头条正在建视频理解系统
2017-05-26 13:11 人工智能 信息流

2017年中国国际大数据产业博览会在贵阳开幕,今日头条副总裁马维英发表演讲,为我们讲述人工智能与信息流的未来。

i黑马讯 5月26日消息 昨日,2017年中国国际大数据产业博览会在贵阳开幕,今日头条副总裁马维英发表演讲,讲述人工智能与信息流的未来。

马维英表示,头条正在建视频理解系统,监督式机器学习可以使用这个大数据来训练自动视频理解系统,学出的系统再给审核人员用,让他们更高效的审核。“头条有机会开发出更好的机器创作还有机器阅读的技术。”

以下为马维英的演讲内容

大家好,非常荣幸参加此次论坛。

获取信息是人类社会自古以来就有的需求。PC互联网时代,有搜索引擎,有人找信息,信息也找人,所以广告、搜索成为了一个完美的结合。而今天我们到了一个移动互联网的新阶段,新的信息平台又出现了,接下来我将介绍今日头条如何利用人工智能促进人类社会的信息交流与创作。

人工智能的本质是什么?我认为是软件产业的颠覆性革命。今天大家都谈到软件在吃全世界,但很多人不一定认识到软件产业本身也在被颠覆。过去的软件要由工程师用各式各样的编程工具写出编程语言。但过去二三十年间万物数字化之后,数字表达让很多东西从类比世界走到了数字世界,这为计算机提供了机会。

计算机的强项就是会算并且算得快,可以用光速推进。原来人类社会中很多耗时的过程一旦数字化之后可以直接算。比如人与信息的连接——以前在杂志、报纸每个月流传一次,但现在几毫秒我们就可以连接一次。

我觉得今天有几大趋势在推动人工智能的发展。第一个是万物数字化。第二个其实是大计算——GPU、PGA,今天还有新的Computing的device,提供了几千台服务器分析数据的能力,并且能力民主化之后人人都可以随取随用。而大计算意味着可以训练大模式。刚刚我提到软件产业的革命,其实今天软件本身已经是一个非常大的模型,它包含统计的模型,包含符号逻辑的模型,包括知识表达。所有人类社会中累积的大数据,用现代的机器学习构建大模型之后,就可以进一步自动化人类社会中的许多流程。

从今日头条的角度来说,我们认为当下人工智能可以重新定义新一代的信息内容平台,也能够更高效的连接人与信息。我们可以帮助数字生活,之后再进一步帮助数字工作,然后最终人机交互界面能够有新一代的机会发生。

今天来贵阳我们看到大数据的确是非常重要的一环,大计算又给了我们能够建立大模型的机会,今天整个软件产业就因此走上了一个新的时代。越来越多的软件是基于数据写出来的,但它怎么写呢?这些软件本身都是几千亿兆的参数,参数量太大不可能人调,那么就用大数据和机器学习来调参数。

这是我们看到的一个背景,再回过头来看,今日头条其实就是在这样一个趋势中重新定义信息平台。以前搜索引擎对用户的理解可能只是几个密切搜索的关键词还有点击过的网页,它与网站有没有直接关系,并且要做反向工程(reverse engineering),把网站里的结构信息重建后做相关排序,而每个人看到的搜索结果都是一样的,排序算法没有针对个人个性化。

今天,在头条上每个用户都有一个很高维的向量表,每篇文章不论是新闻、图片、视频、直播、问题或答案,都是一个高维向量的深度学习学出来的表。在中国今日头条有海量用户,机器知道他们在什么时候想看什么,这些信息帮助我们理解了用户。

我们有头条号,今年还有微头条,创作者把他们的内容给到今日头条,而我们在中间做个性化推荐。如今智能手机让人不再受限于一个场景,地理位置也不再被绑缚,他可以在任何地方任何时间来接受信息。这个信息不管是与工作相关还是学习、娱乐,基本上都在同一个信息平台里面。所以我们连接两端,左边我们看到的所有的文章、主题、视频、问答和图像,另一边是人。我们希望能够作为一个最懂你的平台来智能连接这两边的人与信息。

这张图代表了我们未来的远景。一个新的时代从信息的创作端,也就是创作者,到信息消费端的读者,有各自各样推送的管道和应用在背后,每一个中间人与信息连接的都是一个信息流。我们在今日头条建设这个人工智能的基础建设平台和服务,来支撑整个头条大数据中的处理、分析、挖掘、理解、组织。

因为人工智能很大程度上依赖大数据,如果你能够清楚地定义每一个输入、输出,又很多例子样本可以帮你学习中间的非线性转换方程式,现在深度学习的方法其实都做得非常好。在头条我们会对信息进行过滤、审核再进一步借由它的表达方式进行个性化的分发。分发之后还有互动、交流以及二次传播。原来信息消费者今天也变成信息创作者,越来越多的人都在生产新的内容,分享新的视频、问题和生活的点点滴滴。我们希望用这样一个人工智能的基础设施平台+服务,让算法来学习这里面每一个环节的语义表达方式。

未来整个社会要从数字化进一步走到智能化表达。今天人工智能可以用来学习从数字表达到语义表达的转换(transformation),因为数字化之后还不够,计算机无法直接理解, 人工智能学习语义表达全世界,在那个空间里计算机的能力就可以发挥。用向量计算加加减减就知道图像里面是什么,加加减减就知道它的内容能产生什么样的情感,是悲伤、是快乐,是害怕,对内容有产生情感的认知。

头条正在建立一个我认为将来最好的一个视频理解系统,因为我们现在有大量的短视频、小视频,我们也有大量的标注系统,因为审核团队在工作中提供了很多标注,监督式机器学习可以使用这个大数据来训练自动视频理解系统。而学出的系统再给审核人员用,那他们就更高效的审核,并且仍能提供更多的反馈和新的标注数据,因为他们可以告诉我们之前的正误。所以人+机器,机器帮人,人又帮机器让我们产生正循环,不断的迭代大数据。所以我们就是要闭这个环,这个环包括闭用户的环,还有闭我们内部工作人员的环,我们运营人员的环,我们审核人员的环,不断的借由这些大数据,挖掘人的智能。我们相信在这样的基础下,头条有机会开发出更好的机器创作还有机器阅读的技术。

我们看到已经有越来越多机器在写作、回答问题甚至创作视频,随着越来越多的数据,机器创作将会做得越好。头条大量的应用场景,数据跟闭环,将使人工智能辅助内容创作端做出源源不断的创新,同时在人工智能辅助的消费端也可以有新的创新。

很多人说头条已经用人工智能重新定义了个性化信息流。但不仅如此,我们也希望能在社会公益、社会责任方面创造更多的价值。大概在去年二月,我们开始有头条寻人的项目,从多个来源获得失踪人口的信息。收到信息后根据走失的时间、地点精准推送寻人启示到那些可能有走失人口线索的人中。

到今年5月头条寻人成功的找到1800多人,发布过大概有10700多条寻人信息,已经是中国现在最高效的互联网寻人机构。在我们寻找到的失踪人口中最年长的是一位101岁的北京通州老人,最快的找到是一位北京离家少女发布后仅用时一分钟。

最近一个很感动我的例子是头条寻人帮助了一位台湾97岁的老兵,他的名字叫做胡定远,离开大陆77年。他原来村庄的人都散了,后来我们利用头条寻人居然帮助这位97岁的老兵顺利的返乡找到他的家人。因为我父亲也是一位老兵,所以我看到这件事情非常感动,因为我能体会他离家50年,重新跟家人团聚的心情。这是一个非常有价值的事情,我认为今天人工智能的确可以创造更多的人文价值。

做完头条寻人之后我们尝试了头条追逃。今年2月开始这个项目和中国的一些警察,以及法院合作。头条追逃可以精准定位到一个事件发生的时候,在该地点附近可能有线索的那些人,特别是撞车之后逃逸的人。头条追逃最快的例子在两个小时之内,因为他刚回办公室他的同事就说头条追逃已经有你的信息。他觉得自己肯定逃不掉就去自首了。我们在这些项目上与国家合作,希望可以用人工智能帮助找到遗失人口或者抓住肇事逃逸者。

第三个例子是我们利用人工智能技术在公共信息服务上所发挥的作用。我们内部已经建立了一套针对假新闻和谣言的系统,能够知道从算法和人两个管道获得假新闻的信息。首先系统背后有一个很大的数据库,可以不断累积历史上所有的虚假谣言,包含一些千年老谣,在民间流传很多但没有事实根据的内容等等。当这些类似谣言再次出现时,系统就会自动发现屏蔽。同时很多虚假信息在人工审核确认后,我们还会针对阅读过之前假新闻的人主动推送一个辟谣,告诉你之前看的这个消息是错的,消除虚假新闻信息对用户的影响。

再回到这张图,就看到整个头条的愿景。人类社会当初为了连接人与信息,在文字出现之前结绳记事,重要事情结一个大团,小事情结个小团传递给下一代,但很快这个结就失去了意义,因为很快人就忘记了那个结是什么意思。到公元前100年的时候蔡伦发明了造纸,大概在1000年的时候毕升发明了活字版印刷术,这两个发明驱动了整个人类社会信息的传播。直到过去前四五十年互联网、计算机的出现,它们开始被颠覆。而过去十年智能手机、移动互联网的出现又产生了新的改变。可以看到颠覆在加速,原来2000年没什么变化,过去三四十年已经开始,十年又是一个变化。

我觉得未来人工智能可以带来更多意想不到的便捷,就像现在它已经帮助每一个人创作、发现、使用、传播各式各样的信息内容。在今日头条这样的平台我们相信人机交互,人机互相学习,人帮机器,机器帮人,大数据闭环,能够让人工智能再往前走到超级智能,这是我们看见的未来,也是今日头条的使命,谢谢大家。