知乎合伙人李大海GMIC演讲:AI 算法与人文价值
2018-04-27 19:03 知乎 AI 算法与人文价值 全球移动互联网大会(GMIC)

“在垃圾泛滥的互联网信息海洋中,真正有价值的信息是绝对的稀缺品。”

i黑马讯 4月27日消息,4 月26日 -27日,第十届全球移动互联网大会(GMIC)在北京召开。此次大会以 “AI 生外物”为主题,人工智能界的泰斗级人物Michael I. Jordan、Yann LeCun等悉数到会。知乎合伙人、高级副总裁李大海受邀参与Gmic主会场全球人工智能领袖峰会,并发表了以“AI算法与人文价值” 为主题的演讲。

他表示,如果把知乎看成一座拥有一亿四千万居民和游客的超级城市,知乎的社区规范就是让城市正常运转的法律法规。知乎平台的管理不仅可以通过产品和运营手段来人工完成, AI 也有能力参与其中,让社区规范被更加智能高效地执行,让互联网讨论礼仪被更好地普及,这正是AI 所能够带来的人文价值。

演讲最后,李大海首次对外公布了知乎智能社区概念。“在垃圾泛滥的互联网信息海洋中,真正有价值的信息是绝对的稀缺品。知乎鼓励每个人都来分享知识、将每个人的知识都聚集起来,并为人所用。技术一直在帮知乎实现更精准高效的连接,现在, AI 已经深度参到社区内容分享和流通的每一个环节,让对更多人有价值的问题被提出,让最适合回答的用户被邀请,让更多分享见解经验的欲望被激励,让更多专业认真的知识被推荐,让更多人的好奇心被满足,让 1 亿 4000 万注册用户甚至数亿网民连接到一起。”

以下为李大海的演讲内容节选,经创业家&i黑马编辑:

谢邀。很荣幸能够代表知乎来参与在GMIC上的分享。现在AI算法已经被全面应用于内容平台的各个环节,业界对于AI算法对平台的商业价值、业务价值已经讲的很多,今天我想借此机会跟大家讲讲AI的人文价值。

知乎的诞生源于一个非常简单的初心——我们相信在信息爆炸的互联网海洋中,有价值的信息仍然稀缺。基于这样的理念我们建立了知乎,希望用户能够彼此分享信息,互相利用,帮助用户更好的认识这个世界。

要让用户主动分享自己的知识、经验、见解,一定需要开放、包容的讨论环境。因此从知乎诞生第一天起我们就通过运营和产品手段来维护良好的讨论氛围。我们是第一个把“友善”作为要求写进社区规范。

截止今年三月底,知乎已经有超过1.4亿的注册用户、日活用户达到3400万、用户在知乎上累计提出了2300万个问题,并收获了接近1亿的回答。目前,知乎已经成为中国互联网中最大的知识分享平台。

如果我们把知乎比作一个城市的话,这就是一个超级城市,里面有上亿居民和游客。这个城市的法律法规就是我们社区的规范。在这个超级城市里,如果我们用人工方式运维法律一定是低效的,因此引入了AI前沿算法技术,帮助知乎小管家团队维护社区氛围。

我们要解决的问题是自然语言领域处理的问题,即 NLP问题。实际上,AI在NLP领域不如图片等领域的成果出色,但知乎积累了高质量的中文语料库,拥有大量优质提问和回答文本。此外,用户行为也是一个非常重要的数据。

用户来知乎去生产和消费内容的同时也在建设社区,他们的行为本身就是社区体系的一部分。举例来说,用户对一个回答的赞同或者反对、举报,发起话题或对话题进行公共编辑,某种程度上我们可以认为是对相应文本语料进行标注。有了这些标注数据后,我们就能够利用机器学习算法得到更好的语义表示,帮助我们理解语言。

这形成了一个正向闭环。因为有良好的社区氛围,因此用户在知乎的行为大部分质量很高。用户高质量行为会得到高质量的标注数据,更有利于我们通过AI算法维持和提升社区的讨论氛围。

此外,经过七年多的运营,知乎团队培养了丰富的社区管理经验。我们认识到社区的规范不是制定出来的,一定是平台和用户相互摸索出来的。在这个过程中我们理解了不同用户的不同诉求,让我们规范的匹配复杂多变的场景。这些经验对于我们落地AI落地非常有帮助,它能够把“氛围”这个虚无的问题分解为明确的小目标。

经过两年多的工作,我们建设了一个算法机器人,叫瓦力。目前瓦力已经能够快速响应处理像答非所问和不友善的内容,如歧视、恶意贴标签、辱骂等低质内容,全力帮助知乎小管家团队减少低质内容和无关内容对用户的干扰,给用户提供人文关怀。瓦力机器人能做到99.13%遵守率,有两个工作方向:一、在不同领域进一步提高准确率和召回;二、不断提高瓦力机器人的适用范围。

瓦力机器人能力提升后面是离不开我们的用户的。举个例子,我们最近上线了一个理由反对的功能么测,这个功能有五万名用户参加了内测。所谓有理由反对就是用户点击反对的时候,同时选择一下反对的理由。用户每次选择都是瓦力去学习的一些新的机会。我们在内测期间通过用户选择和瓦力结合一共梳理了超过两万条答非所问的回答。

下面我从技术的角度简单去讲讲我们的瓦力机器人怎么做的。以答非所问为例来讲,我们解决这个问题时采用的是随机森林的模型。什么是随机森林?随机森林是用随机的机制产生很多分类数组成的森林,它的分类数就是把这个样本放到每个数里去分类。假如讨论知乎的宠物是狗还是狐,让每个树自己投票。在完成模型后,我们取得一个不错的效果,它的准确率能够达到97%。

但这其中也有两个问题:一、只有58%召回率,这意味着我们会错过坏人,上线了一些答非所问的回答,会用户带来不好的体验。此外,这个模型需要统计用户行为特征。即如果对一个新的回答做分类判断是否是答非所问问题是需要讲其推到线上观察一段时间,需要统计用户对它的点击量反对或举报。这就出问题了,因为它上线了,伤害了用户体验。因此,我们开发了基于卵生模型的思路,以此提升网络结构的表达能力。最后,我们在召回率上有了非常大的提升,从60%提升到80%。现在用户发布的任何一个回答很快就能被分类。当然它也有缺点——准确率下降了。在这个场景我们可以结合其他的业务策略来弥补。

此外,知乎在阴阳怪气(即反讽)识别领域也有一些实践。这是一个非常难的问题,也非常有意思。我们处理的思路还是基于深层语义理解,去做语义分析工作。从我们的实践来看,同一句话如果是两个好朋友之间发生的话,它有可能是插科打诨,打情骂俏。但是如果是两个陌生人之间一定是有敌意或不友善。因此,我们会从两个方向去综合判断。反讽是情感分析领域的前沿问题,它的难度在于它是通过完全正面的词语去表达负面语义,是一个很高级的修辞手法,机器人很难明白。

在训练中,我们会把内容本身的特征尽可能feed到模型中去,包括文本特征、数值特征、反讽词表以及一些表现符特征等。但我们不会把用户统计特征放进去,原因和处理“答非所问”问题一样。我们使用的网络拓扑模型是CNN和LSTL的结合。

最关键的是,我们在分类层是用知乎层大量一致的语料产生标准数据,这也是用户行为。简单来说,如果一个内容有很多优质用户都表示反对,我们即认为这是一个负面内容。类似如果一个评论有很多用户都表示赞同,它就可能是正向内容。基于这些数据,我们可以构建大量标注数据。

这个方案我们目前还在开发过程中,有结果后我们会发布到知乎专栏上,大家也可以关注一下。这个问题比较难,我们还要解决很多细节问题,时间可能会比较久。知乎通过对大量高质量用户行为的学习分析,一定会在语义和用户关系这两个层面上有一个更深的建模和理解。

以上是我关于AI算法和人文价值的一些分享。一个开放包容的社区很重要,它是孕育百花齐放文化的一个非常重要的土壤。当然,知乎作为一家技术公司不仅把AI用在了这个领域,还广泛应用在知乎的内容生产、流通、消费等各大环节。

下一步,我们计划是用AI、人机结合打造一个智能社区。什么是智能社区?我们相信未来每个知乎用户进去知乎社区后都能很快找到他感兴趣的人和内容,他的问题能够快速的被推到能回答和有意愿回答的人,分享出知道自己最懂的信息,遇到有共鸣的人去产生更深刻的交流……我们将效率建立这样思维的连接,让每个个体脑袋里的警世通言见解都能够被分享、被筛选、被转化变成这个时代的知识。知识的生产方式和迭代效率在这样的连接之下就会发生质的改变,这是我们认为的智能社区。

在建设智能社区的过程中我们会遇到哪些挑战呢?我们的挑战其实主要是在人上。我们希望业界更厉害的人加入我们,一起把知乎创建成为一个具有人文价值的一个智能社区。谢谢大家。