11月30日,由中国人工智能学会主办,CAAI智能传媒专委会、新浪新闻联合支持的“人机协同与传播新范式”专题活动在北京落幕。在活动的主题分享环节,清华大学新闻与传媒学院教授、智媒研究中心副主任蒋俏蕾进行了题为《人工智能的升维与人机传播的跃迁》的演讲。

清华大学新闻与传媒学院教授、智媒研究中心副主任蒋俏蕾-主题演讲
以下是演讲实录,内容经编辑略有删减:
今天分享的内容主要回应两个问题:一方面是人工智能何能?另一方面是人机传播何为?我们沿着人工智能不断迭代和演进的路径去思考人工智能现有的能力,从而可以展望人机关系及人机传播将走向何方。
首先看一下人工智能何能。前面各位老师和专家都详细介绍了人工智能现在的发展情况,我们看到人工智能经历了从符号智能、专用智能,到迈向通用智能的时代变革。在演进的过程中,人工智能领域一直不变的核心命题是:为了掌握完成复杂任务的知识。以此为切入点,我们可以审视人工智能发展的现状、未来走向,以及人机关系的未来。
说到人工智能,一个常见的逻辑是将人工智能与人类智能做比较,人们会常常思考现在的人工智能有多像人。因此,在思考人工智能的智能维度时,不妨从人类智能的多维图谱来关照目前AI呈现了怎样多元的智能维度。
人类的智能就是多元的。包括身体智能,即体能,它是人对于身体的感知和有效地运用身体的能力;智力智能是人的数理逻辑和语言运用能力,即我们非常熟悉的、常被量化测量的IQ;社会与情绪智能是社会交往、维持社会关系、感知和控制情绪的能力;创意智能是人类所具有的开展创意活动、创意灵感、新想法,有创造性地解决任务的能力;道德智能是人类感知价值观、责任、伦理等方面的能力。
所以,我们常常在教育体系中强调五育并举,培养德智体美劳全面发展的人,可见人的能力或者说人的智能维度是全面和多维的。
将人工智能与人类的智能相比较,可以依次了解现在人工智能发展的情况,继而思考人与人工智能的关系。
首先,在各种维度的发展上是不均衡的。对于人工智能的发展,可能最先被考虑的是智力,即数理逻辑、语言理解运用的维度。比如,现在的大语言模型,基于海量的数据,能够掌握的通识知识容量已经大大地超越了普通常人的水平,同时,基于垂类知识的加持,呈现出人工智能赋能千行百业的业态。比如,在教育领域中,现在清华每一位本科同学入学都有了自己的AI伙伴叫“清小搭“,是每一位本科同学的AI智能体伙伴。研究生层面,我们有”清小导“,学校在全面推动AI赋能课程建设。在学校的智能体广场上,同学们可以体验一门课的老师、助教、同学全部是AI智能体,围绕上课的自己展开互动交流。这种跟线下实体课堂平行的AI赋能课堂教学,被成为MAIC(Massive AI-empowered Courses)。
一方面我们感受到在逻辑思维、数理、语言运用上AI已展现出很高的能力;另一方面,即便是在智力能力上,AI和真实的人仍有很大的距离。比如,常识推理方面,现有的AI应用跟普通人的差距还是很大的。可见,即便是在智力智能的层面,目前的人机交互还尚未到达人们想要的伙伴层面。
我们再来看AI的情商,即社交和情绪智能。具有较高EQ或者社交智能之后,AI可能更像人。根据我们之前的研究,在共情的三个维度——认知共情、情感共情和共情反馈上,目前AI在共情反馈方面做得最好,能够及时有效地开展回应。但是对于认知和情感共情层面,还有很长的路要走。
即便是这样,当AI开始有了情感维度的时候,它就变得更像人,在人机感知、人机传播这条道路上更进了一步。比如,活跃在微博平台上的微博罗伯特,很多人说“他是已读乱回的捧哏”,首先他能做到及时的反馈,一天24小时,一周7天可以随叫随到,而且跟AI互动人可以没有任何的负担和包袱。大家说他已读乱回,说明他在认知共情、情感共情方面还有提升的空间。
过往研究指出了共情对于人类社会进步具有非常重要的意义,人机共情显然对于人机传播、人机共融共存发展也具有非常重要的意义。这一方面来自于AI在情感维度的不断迭代和进步,另一方面也取决于人类的感知。人们的认知过程中存在机器启发式,比如同样的回应是来自真人还是来自于机器,仅仅被告知这种差异,人的感觉就会有变化。未来在人机共情方面,一方面关乎机器对于情感的识别或表达,另一方面也要看人类能不能突破机器启发式的感知逻辑,认为人工智能为代表的机器能够感知到情感并且给出相应的回应。
我们再看一下创意智能,今年的诺贝尔经济学奖再次让人们关注到了破坏性的创造。对于不同的创意智能,比如累积型创造、维持型创造、破坏型创造或者是颠覆性创造。现在基于大规模的数据和语料的基础,对于累积型和维持型的创意,AI已经能够做得很好了,比如在AI For Science的科学研究中,用AI预测蛋白质结构、推动数学领域的理论建模等等。但对于破坏型的创造和根本型的创造,AI发展还有很大的空间。
另外,我们的研究发现在现有具有创意的行业里,绘画、设计、写作等等,人对于人工智能的创意仍有分别性。在社会上广为流传有些行业会被AI替代的当下,很多行业从业者被迫思考其核心竞争力,并没有欣然把人工智能作为创意认知的外挂,人机共创在某种程度上还存在张力。从分布式认知的视角来看,人机共创怎么实现外包或者是协同,也是值得思考的维度。
提到道德智能,相关的思考已经距离人们的日常生活越来越切近。现在人们的日常生活中大家也在思考AI的伦理边界,比如智能驾驶中的责任承担,像是“电车难题”这样人类社会的伦理困境并不能通过AI技术的介入来轻易解决,也包括意识形态领域,AI生成的虚假信息的传播对于公共舆论的影响,甚至可能带来社会的不稳定,这些都引发了人们对于AI伦理以及相应治理的关注。
不同学科都在探讨人和AI对齐,或价值观对齐,也有学者认为不同情境下人的悲喜也可能互不相通,比如历史上就有“何不食肉糜”这样的例子,现在在不同的语境下也不断在现在的社会中再现。即便是人,不同人在道德感或者是法律和伦理感知的层次和遵守程度上也有差别,因此有的学者指出,所谓的AI对齐并不是AI跟人对齐,而是AI要向更高的伦理价值对齐,人们要给AI画出红线。当AI能力越来越大的时候,人类对AI的恐惧会提升,有了红线才能让人对AI产生信任。这也跟我们现在做的公众对AI感知情况是相符的。
最后提一下身体智能或者说体商,随着具身智能的热议也开始被大家重视。很多时候,我们接触的AI是没有身体的。AI有没有身体这件事情很重要。当AI有了身体之后,所谓的具身智能会有什么不一样?
经典的“玛丽的房间”这个思想实验有助于我们的理解。玛丽是一个精通色彩知识的专家,她知道世界上所有已知关于颜色的知识,但她从出生开始就生活在一个只有黑白两色的房间里,她从来没有出去过。有一天玛丽从这个房间走出去了,看到了五颜六色的真实世界,请问玛丽对于颜色的知识有没有增加?如果有,增加的是什么?有学者认为是有增加的,她用眼睛看到色彩和只存在于头脑中的色彩知识并不一样,那种增加是“质感”,是通过身体具身感知到的色彩的感觉,而它并不仅限于抽象的知识。
目前很多人工智能基于大量的语料或信息,当它没有落到现实的空间中,还是有感知上的差别。
比如,在香港有一条观光线路,它把香港特别市井的地方曾经发生过的刑事案件的卷宗数据对应到相应地理坐标的位置上,并开发出一条实地观光线路。所有感兴趣的游客可以沿着组织好的路线实地走到那些具体的地方,听导游讲述曾经在那里发生过什么样的事件。这种具身的体验让很多人看到香港这座城市的另外一面,在很高的楼宇间,望向鸽子洞一样的密集的住宅,听着那些曾经发生的案件,更加有感触地理解了这座城市的丰富性。
结合最近大家普遍关注的香港大浦大火,看到图片、文字和视频跟现场有什么不一样?
一方面,我们在推动人工智能往具身智能方向发展,一旦人工智能有了身体,人对它的感知也会发生变化,人机关系也会有更加微妙的体验,最常说的恐怖谷就是一种相关的体验。过往的研究发现,越像人会带来好感度的增加,但这种增加不是线性的,当它到了挺像人又没有那么像人的地方,人们会有非常惊悚的感觉。
当人工智能有了身体,我们看具身智能,相应的感知也会有变化。除了视觉上的,听觉、触觉、味觉收集到外界的物理刺激都会影响人们的感知。
以大家都熟悉的智能音箱或者是人工智能语音助手作为例子,过往我们做了系统研究和综述,智能音箱作为AI应用很普遍,但当人工智能技术为人类的创意或者应用打开各种可能性的时候,似乎人们并没有那么不设限地设计各种各样的应用。比如全球所有的人工智能语音助手或者是智能音箱最初的默认声音设置都是年轻女性的声音,这来自人类社会中的性别刻板印象。而这种刻板印象,会给人机互动会带来一些偏向。
因此在北欧有一款叫做无性别感的语音助手Q,它的声音让人听起来并不会直接觉得像男性或者像女性,通过这样的方式,他们希望不要把某些来自于社会中的性别刻板印象通过AI设计延展到人机交互过程中,希望更多元的群体特征都可以在人工智能应用中得到表征。
我们在中国语境下做了一个研究,结合近些年的人口老龄化趋势,我们发现全球没有一款人工智能的语音助手是用老年人的声音。老年的声音很难做吗?并不是,而是老年人的声音听起来既不“智能”也不太“像助手”,因为过往老年人跟智能技术是有距离的,通常是滞后的使用者,而且老年人通常是需要被帮助的而不是提供帮助的人。
现在人口老龄化,老年人有非常旺盛的需求需要被看到,老年人也在用各种各样的AI助手,甚至可以通过语音来互动。我们通过研究想发现一款老年人喜欢的具有同龄感的声音,或许他们想跟同伴的声音聊一聊。
这些还都是很简单的单维身体维度。如果是整个的具身智能,比如我们在春节晚会上看到会跳秧歌、会转手绢的宇树机器人,半程马拉松比赛里出现的人形机器人跟人类一起赛跑。当机器人有了身体之后,它才能有更加丰富的、接近人的感知,比如他才能够拥有和懂得什么是“手感”,才能够理解同样重量的鸡蛋和土豆应该用不同的方式来拿,他才能够理解人在文字背后表达的更丰富的含义。
我们把人类不同的智能作了一个简单的梳理,但没有一个人只有单一维度的能力,每一个人都是不同维度智能的混合体,所以从全人的视角来说,现在的人工智能要发展需要全方位的融合智能。
此外,还有我称之为“有用的无用”的一些能力,没有被我们纳入很系统测量。比如,在现在的会场闻到烟味你会想是不是着火了,某一些味道作为信号跟它背后的自然现象是有关系的,这些看似无用的能力其实是非常有用的。最近香港大浦的大火,很多人说闻到了烟味但当时没有立刻想到逃生,有的人在等消防铃的声音。这不免让人想到2020年美国消防协会对消防最有贡献的奖项没有颁发给消防器材相关的人,而是颁发给了一位社会学家,他研究的是2001年911事件中高层楼宇着火的幸存者,那些看似无用的感知其实是非常有用的。这部分智能人工智能能不能感知到、能不能表征出来?
现在的人工智能离真人还差得很远,并没有像《西部世界》的台词里说的“如果你看不出来差异,那我到底是不是人还重不重要”。现在的人工智能还处在工具以上、伙伴未满的状态。
当然,类人智能还是沿着非常常见的惯性思维,如果人工智能像人的话。有没有一种可能性,人工智能不一定像人?自然界中除了人之外也有很多其他的智能生物,所以MIT人工智能的研究学者提出了一种理念,当我们在探讨人和AI关系的时候,不妨以长久以来人和动物互动历史作为参照,人工智能可能是一个新的物种,不一定遵从人类的逻辑。
我们已知有非常多很聪明的动物,包括像章鱼这样看似跟我们特别不一样但也非常聪明的生物,BBC和Netflix都拍过反映章鱼智能的纪录片《客厅里的章鱼》和《我的章鱼老师》,科学杂志中也有相关的探讨,章鱼这么聪明,为什么没有进化出人类的文明。人只有一个大脑,章鱼作为八爪鱼有九个脑,有一个中央大脑长在头上,每条爪上都还有一个mini的脑,章鱼还能实现基因编辑,智商水平也很高。
现在智能技术包括分布式认知,CPU作为中央处理器也借鉴了很多这样的观点。我们在探讨具身智能的时候,也看到很多智能体不一定长成人形的样子,它可能是四脚的,也可能是“黑灯工厂”里机械臂的样子。Google曾经做过狗狗视角的导航,纪录片《蜻蜓之眼》以蜻蜓复眼的观察模式来比喻到处可见的监控视频呈现出来的信息叙事,这些都是思考未来人工智能可能以异类智能样态发展起来的可能性。
当我们开始有了各种各样的智能体,他们彼此去互动的时候,比如说Chirper AI这样的全智能体的社交媒体平台,上面全都是AI没有人,还有各种各样的智能体广场,或许我们可以展望未来会实现智能的涌现。在那一天,我们常常在科幻片里想象的外星智能可能并不是天外来客,而恰恰是来自于人类社会内部。
以上是我们的观察、思考、研究和一些脑洞。总结而言,现在的人工智能不管是以人类作为参照还是可能会发展出不同于人,进而在交互过程中形成的涌现,目前的状态逐渐达到工具以上,展望未来AI可能会成为人类的伙伴,我们跟AI以不同的智能方式多元共生,去期待可能不同于人类文明的其他文明的可能性。
作为一个传播学者,我对AI持谨慎乐观的态度,面对AI我们可以顺势而为,把握智能革命的契机,推动人机共融向善而行。
以上是我的分享,谢谢各位!



