百度吴甜：从基础设施到应用、生态、人才培养，AI新基建的基本功_推荐

百度吴甜：从基础设施到应用、生态、人才培养，AI新基建的基本功

2020-04-15 12:47 百度百度AI AI抗疫

AI 新基建是一项全方位的工作，基于AI基础设施，不断产生应用价值，形成生态系统，培养AI应用人才，合力加速产业智能化。

文 | 特约观察员吴甜

核心提示：

1. AI基础设施是构建于云平台基础上，以算力平台和数据平台支撑形成的AI技术开发平台、能力平台、场景技术方案综合的、具备AI安全保障能力的大型技术系统和工程系统。

2. 在基础设施之上，要不断在应用场景当中发挥应用价值，以此形成正向的循环，能够促进基础平台进一步发展，促进整个AI系统进一步进化。

3. 在AI产业化过程当中，因为其过程链条长、决策复杂，需要社会全方位多方整合力量进行积木式创新，因此共生共赢的生态系统就应运而生了。

4. 重视人才培养，加大力度培养既懂应用场景，又懂AI技术的复合型新型人才，通过构建相应的教育、培训体系以及职业体系保障，多方位培养AI技术及应用人才。

本文由4月7日超级沙龙「新基建」系列第三期直播整理而来，有删减。

最近这段时间，随着加快新基建的要求提出，新基建的建设现在已经是非常重要的话题了。所以我今天带来的是关于人工智能新型基础设施建设的理解。后面我简称为AI新基建。新型基础设施建设虽然简称“新基建”，但它其实是以5G、人工智能、工业互联网、物联网等为代表的新型基础设施。

本质上来说，它是信息数字化的基础设施。

AI基础设施

首先，我来介绍作为AI新基建中最基础，而且也是最重要的硬核部分，AI技术平台及以AI技术平台为核心构建的一套基础设施。

算力框架与平台介绍

我今天以百度的工作为例来介绍。

AI技术涵盖的子领域非常广，整个的AI技术系统本身开放性很强，它和应用场景也有非常多的结合，和应用紧密相关，而且会随着应用的发展，持续地进行自身进化，所以它并不是一成不变的，而是一个不断演进演化的系统。

百度大脑是百度AI技术的集大成者，可以看图一简单地回溯一下百度大脑的发展历程。特别看2018年的时候，百度大脑核心技术进入到“多模态深度与理解”的阶段。所谓多模态就是综合语音、视觉、文本的理解能力，并且是深度多层次的语义理解。而AI能力在这个阶段也已经开始了多维度、多层次的开放状态。2019年，百度大脑进一步升级为软硬一体AI大生产平台。在这段时间里，百度大脑也进入到了AI的能力和应用场景融合创新的阶段，和各行各业的场景广泛结合成为了AI时代的大生产平台。

AI大生产平台，是一个什么样的平台？这个名字听上去可能会觉得有一些黑盒，如果我们打开黑盒去看，整个组成部分最基础的是算力和数据平台。在整个生产平台上，深度学习平台是底座基础。通过深度学习平台，开发者可以去开发自己的AI应用。这里也会提供给大家通用的AI能力，比如语音的、视觉的、自然语言、处理知识图谱等一系列的AI能力的调用。

再结合到场景当中，是有大量的应场景需要进行定制训练的需求，所以也开放了定制训练平台。最终整个平台上所积累的能力需要能够和业务系统进行部署和集成，所以也提供了部署与集成的工具和平台，在此基础上也形成技术解决方案。整个的平台大生产平台本身由AI安全保驾护航，因为在AI的整个应用过程当中，安全也是重要的话题。

接下来我们从整个平台的底层向上，逐层来看一看，现在的这些内容的含义以及进展。

最底层是AI基础架构，这是整个大生产平台的计算底层。随着AI算法能力提升，它对算力的要求是越来越高的。有这些计算力的基础资源才有可能对大数据进行计算，最后产生AI的算法模型。

面对即将到来的AI+5G时代，未来计算将会无处不在。它会从云扩展到端、边缘等等，在我们身边时刻都能进行各种各样的计算。在百度大脑上，全新的AI计算架构，通过芯片层、互联层、系统层以及调度层，进行协同设计和技术创新，最终可以提供百万TOPS量级的强大的计算力（见图三）。与此同时芯片之间、系统之间，还有设备之间都能够互相连接，将不同场景中的计算连接在一起，从而产生一个综合的更强大的计算能力。

百度在使用经典的芯片基础上，也有在自研芯片。我介绍两款自研芯片，一个是云端通用AI处理器，百度昆仑，这是一款云上的处理器。在这款芯片上，我们针对语音、自然语言处理，还有图像进行了专门优化，优化之后，性能可以更加提升。同时百度昆仑和飞桨等深度学习平台的框架进行了非常好的深度适配，使得编程灵活度更高，能够灵活地支持训练和预测。总体来说，在同等性能下使用昆仑可以在成本上降低10倍。

还有一款是在端上的百度鸿鹄，这是一款专用于远场语音交互的芯片。在100毫瓦功耗情况下，鸿鹄芯片可以支持远场语音交互核心的阵列信号处理和语音唤醒能力，这些能力会用在哪呢？主要在车载语音交互、智能家居等场景，会带来低功耗、高性能的计算能力，也能够给这些场景带来更大的想象空间。

同时鸿鹄芯片在流片的同时就已经实现了量产，现在已经在百度的相应产品当中去使用了。

在算力层向上，向下连接芯片，向上连接了应用场景的就是深度学习框架及平台。在AI时代能够帮助开发者便捷、快速完成深度学习技术的研发，这是深度学习平台的使命，深度学习平台是智能时代的操作系统。在飞桨产业级深度学习开源开放平台上，我们已经构建起了整个全方位、全功能的平台。

图六是飞桨的全景图，它在核心框架层能够支持开发者进行开发、训练、预测等全流程的研发工作，在飞桨上还发布了百度自己以及百度的行业伙伴一起打磨过的工业级的一系列模型，覆盖到了像自然语言处理、视觉推荐、语音等等，这些主流的AI算法方向上的官方模型库。

在真实场景中应用的时候，往往还需要有端到端的配套的开发套件，以让场景的整个开发过程更加便捷、便利，并且能够去复用以前已经做好的各种各样的积累。现在飞桨在语义理解、目标检测、图像分割，以及点击率预估这四大场景上都有配套的套件，可以非常便捷地使用。

飞桨平台也提供了相应的工具组件，在平台层使用的时候也提供了服务平台。这样的平台在开发的过程当中提供了便捷的框架，在训练过程当中提供了超大规模深度学习模型训练技术，在部署上也是针对多端、多平台、全面部署高性能推理引擎，同时还有产业级的开源模型库，这些都已经综合提供出来，可以供产业使用。

AI算法方向的最新进展

语音识别

语音识别应该是AI算法中发展历史比较悠久，目前的可用性、可用程度已经非常高的一项技术。当然它还持续地有技术上的突破。

百度上线了首个基于流式注意力的语音识别线上服务，这也是在国际上首次实现了在线语音识别大规模使用注意力模型。技术使用之后，语音输入法可以达到相对准确率50%的提升，在音箱这类产品中，准确率甚至提升到了20%。同时随着端侧的智能设备的广泛使用，在离线的语音识别上，无网状态以及弱网状态现在也有越来越多的需求。百度的语音技术团队，通过系统性的优化，也解决了语言模型裁剪性能损失问题，使得离线模型现在也已经具备了非常高的识别率。

语音合成

我们知道，在语音合成的时候，如果合成出来的声音，比较偏重于机械感，缺少情感，那么听的时间太长就会非常疲惫。所以音色模拟、情感模拟等等方面，都会是语音合成当中需要突破的挑战。百度推出的语音合成技术，用20句话就可以制作专属的语音，定制语音，将声音当中的音色、风格、情感等要素映射到不同的子空间，在使用的时候，不同要素可以进行任意组合。

在百度地图上已经推出了全球首个地图语音定制功能，大家也可以试一试，只需要录制20句话就可以做成一个个人专属的语音包。

视觉理解

百度这些年在OCR物体检测、视频理解、目标跟踪等业界领先的图像与视频技术也多次在国内外顶级赛事中取得了佳绩，并且这些技术也已经在机械制造、金融、医疗、教育等领域得到了非常广泛的使用。

虚拟形象

虚拟形象合成方面，当我们已经对大量的语音、视觉以及文本的理解能力达到了一个非常高的水平之后，AI算法也在尝试推进去做虚拟形象的合成，尽可能形成更加自然，更加像人，更加具有丰富情感的虚拟形象。

百度合成虚拟形象技术其实结合了多模态的识别和理解，比如语音的识别、视频的理解，还有面部的、肢体的、嘴型的生成能力，以及语音合成TTS的技术，从而实现了业界首个可以进行量产视频的真人形象的虚拟主播，这也在多个场景当中应用。

比如央视和百度合作打造过AI虚拟主持人小玲，她在央视去年的五四晚会上亮过相；澎湃新闻也和百度一起打造了第一个真人形象的虚拟主播，用在了早晚新闻栏目上；浦发银行和百度合作打造了业内首个金融数字人，它有情感，有专业的银行知识，能够提升银行的客服体验。

基于知识图谱的语义理解

语音视觉等技术在人工智能技术当中属于感知层技术，类比人的这种感知能力。人还有非常强的认知能力，认知能力主要体现在自然语言处理、知识图谱等语言和知识类的技术上。百度构建了超大规模、多元异构知识图谱，包含有实体图谱、事件图谱、行业图谱、关注点图谱、POI图谱等等，这些图谱都会根据需求场景的需要不断地扩充和延展。

我举一个例子，基于知识图谱的视频与理解，用感知层能力去进行视频的理解的时候，可以通过视觉理解去提取视频当中从视觉视角上看到的特征；语音识别还可以对视频当中人物的一些对话、言论等进行语音上的识别和提取特征；对视频的标题以及周边文本也可以进行文本理解。在这些基础理解之后，我们还可以再去结合知识图谱当中的视频理解子图，在知识图谱当中进行计算和推理，可以对刚刚产生的理解的标签、理解的特征进行补全、关联等等一系列操作。最终用在产品上，会对整个视频的内容有更深度的理解。这是一个用感知技术和认知技术结合，进行多模态融合的一个非常典型的例子。

那我们再看看对人的语言的理解。如果AI技术能够进行完全充分地理解人的语言的话，这将是迈向通用人工智能的非常重要的技术的突破。当然在这一方面，也是持续不断地有新的突破。

百度推出的ERNIE是持续学习的语义理解框架，在这个框架下，可以进行知识增强的语义理解。我来解释一下它的含义是什么？比如说我们想让AI算法理解实体，我们会用百科的内容、网页的内容去进行实体识别任务的构造，然后由预训练模型进行学习，再对场景进行针对性的fine-tuning。这样就可以得到实体识别的更强的理解能力的模型。再复杂一点的任务，比如构建因果关系这样的识别任务，也可以通过技术的方式构造大量的因果知识，然后由大的预训练模型进行学习，再进行任务上的调优学习。

那么整个这样的过程已经将自然语言理解的能力带进了一个新的状态。百度的ERNIE模型已经学习了有13亿以上的知识，也是在NLP任务上全面刷新了任务的效果。目前已经在共计16个中英文章任务上超越了Bert、XLNet，取得了SOTA效果。我们可以看到图十二里展示出来的就是在不断地加以新的知识让ERNIE模型进行学习的过程中，推动自然语言推断、自动问答、文本相似度和情感分析等任务上有持续不断的效果提升。

AI安全

百度大脑也打造了完整的AI安全体系，从基础的开源技术矩阵到开放行业解决方案，到与学术界、企业、政府、机构等多层面的开放协作，整个的技术产品已经覆盖到了云管端以及大数据和算法层面的一系列安全风险问题。这样的安全体系，也是为AI技术的产业应用有一个保驾护航的作用，可以推动AI时代的安全生态的建设，让大家在使用AI的技术去开展各种各样应用创新的时候，没有安全的后顾之忧。

以上是作为AI新基建当中最基础的技术平台现在的状态。

AI应用价值

整个新基建也不仅仅是技术平台，还有 AI应用价值的创造。百度的AI技术应用在互联网产品当中已经有大量的实践，比如AI赋能的智能搜索、信息流推荐、新一代人工智能地图等，以及AI为核心能力的智能家居小度系列的产品，还有自动驾驶阿波罗等等。在百度已有的产品上，AI带来了非常多的价值。另一方面AI技术其实也已经体现在面向各行各业的应用价值了。我今天想重点分享一下AI+云赋能产业变革与创新。

我们先看看这样的一个过程。

刚才在介绍深度学习平台时候，也有类似于过程的介绍。首先我们需要先去面对大量的数据生产和数据应用。所以在百度云上我们有推出数据工厂。在数据工厂当中，通过数据的众包、加工、标注等一系列的工作进行数据的处理，也结合百度提供的数据集以及整理的第三方行业数据资源，形成基本的数据集。在应用当中，通过数据的管理、数据评测的平台等，使得整个数据能够形成一个闭环效应，完整的闭环数据会充分帮助算法达到最佳的效果。

数据生产之后会进入到模型工厂，在AI技术平台支撑下，可以融合算力、数据算法，结合场景产生模型，最终应用到业务系统当中。整个过程和刚才所介绍的AI技术平台上的整个过程是非常一致的。

AI技术的场景应用案例

智能工业巡检，巡检这样的场景是目前为止看到的，对AI技术可以非常快速植入应用并带来价值的场景。

经常有讨论说：AI是不是会大量替代人类的工作，造成人类的失业。实际上在我们现实的生活当中，有非常多的工作耗时耗力，而且需要长年累月的经验积累，并且可能还有一定的危险性。这些工作既需要熟练工又有危险性，比如像高压线上的巡检等一系列工作。现在新一代的年轻人愿意投入到这类工作中的人在变少。那么AI应用于智能工业巡检，在针对场景定义的问题上，一般来说目前能看到的就是应用图像的分类、分割、检测等方法，能够快速准确识别。图十五中，这几个例子有安全帽的佩戴检测，尤其是矿井里的安全帽佩戴检测，它可能会解放我们人类的很多工作，还有烟火的警报、仪器表的读数识别等等方面。

这方面在应用AI算法之后，相当于训练成为有经验的巡检师傅，可以大幅减少人工投入，也降低了人工学习的成本。

智能质检。在一线的质检工厂里头，工人每天要进行长时间的工作，尤其是这种精密零件质检，零件非常小，而且需要在强光下进行。长时间的在强光下看微小的瑕疵，也容易造成工人们眼睛的疲劳。我们看到这样的一个例子，这家工厂需要每天对出厂的2000多万个产品，进行所有的检测工作，每天都是超过10小时的高负荷工作，要检查多达1万多个零件。基本上每分钟每个工人需要检测19个，还需要对每个零件从多个不同的角度、不同的缺陷进行分类。我们提供了一个AI赋能的表面缺陷视觉检测设备，它通过百度的AI技术和语音技术，自动对物体表面的缺陷进行大小、位置、形状的检测，并按照品质分门别类地分好。

它总体上可以帮助节省90%的人员成本。整个设备本身相比起原来的工作桌这样的设备来说，可以将占地面积减少80%，漏检率也是大幅降低。

当然刚才这两个都是以感知层视觉技术为主的。其实感知层技术加上认知层技术，也可以在智能媒体上发挥作用，通过热点发现、智能写作、智能勘误、以及智能发布整个的全流程，助力新闻的生产过程。

AI在抗疫中的应用案例

我今天其实还带来了几个在疫情期间，在整个的抗疫过程当中，对疫情的筛查、管理带来帮助的解决方案。

首先是AI测温，AI测温是一套可以非接触、进行远距离多人测温的设备。现在也已经在数百个场所部署，帮助全国各地完成了700万人次的初筛工作。

整个AI测温的过程分为几个方面，首先在行人路过的时候，通过红外的热像仪捕获到温度，通过检测摄像头来不断监测，对远距离的戴口罩的人脸进行检测。这套方案现在也在百度企业内部署，形成企业入场方案。测温之后还可以进行人脸的识别、智能监控，并且如果同企业的报备系统打通，可以自动识别是否符合复工入场的要求。这里所采用的AI技术，就是人脸检测跟踪算法，可以实现精准的人脸定位。即使是戴上口罩，现在也可以把身份识别出来。

过去的两个月，大家应该也都感受到了，社区工作者在整个的抗疫管理过程当中，需要做很多一线的机械的工作。百度推出的基于智能对话技术的外呼系统可以帮助进行人员的随访，对人进行批量的外呼。人工智能语音随访可以通过自动的外呼系统，触达到人群，和他们进行交流和信息的采集，还可以进行防控的相关提醒。这些信息可以立即形成结构化数据分析报告，为后续的一系列决策或管理进行支撑性的帮助。

整个外呼系统所采用的技术包含有语音技术、自然语言处理技术以及知识图谱等等。

我们知道在医护人员最忙碌的时候，护理信息的数据采集、登记、录入等也是医护人员每天非常重要的工作。百度和相关的伙伴一起打造了语音床护理数据采集系统，通过这样的设备进行语音录入就可以了。

医护人员不用摘掉手套，不用摘掉口罩，不用脱下防护服，就可以轻松对着设备进行语音录入，很快就可以输入大量的护理信息。这个过程当中，新冠肺炎相应的真实临床数据，有非常多的医疗专用词汇，专业医疗符号，我们的语音系统也可以快速进行定制训练。在医护语音录入场景中，可以达到语音识别准确率92%以上。在烟台市传染病医院多个科室已经进行了部署使用。

另外，病毒分析和疫苗研发也是抗疫工作中的非常重要的一个工作。在2019年百度曾提出了LinearFold算法，这个算法可以将病毒的全基因组RNA二级结构分析的时间从55分钟缩短到27秒，大幅地提升了 RNA二级结构分析的速度。目前也是在和很多的机构在进行合作，希望AI算法能够助力医学科技。

最后我还想分享的一个是飞桨和连心医疗开源了肺炎CT影像分析模型，这个模型的开源，能够提升在CT影像肺炎筛查当中的医护人员的工作效率。这个模型本身，对病灶的检测精度可以达到92%，召回率97%，湘南学院附属医院现在已经在应用当中了。这些都是AI技术和场景结合之后所带来的一系列的价值。

这些技术在不断地产生应用价值，而这些应用价值恰恰是新基建非常重要的。

AI生态系统

在与广大的行业伙伴进行合作的过程当中，我们也看到了对于大量的企业来说，业务创新和应用落地过程当中，其实也存在着一系列的挑战。

比如说研发方面，AI技术的应用门槛其实挺高的，开发周期往往是不太可控的。有经验的技术人员可以让开发周期缩短，但有如果是比较缺乏经验的研发团队，它有可能会经过比较长的时间才能够验证，得到最佳的效果。在很多的企业进行了AI加持的产品和解决方案的研发之后，市场营销，以及相应的整个过程，也是需要有大量资金投入的。我们也希望这些AI技术能够更便利地被广大的企业所使用。

所以百度大脑开放平台其实构建了多层次开放的能力。

最基础有飞桨深度学习平台，面向场景有定制开发的平台以及开放的能力，和最后的部署集成一整套过程。现在在百度大脑开放平台上，已经开放了248项能力，整个百度大脑的日调用量超过万亿。在百度大脑开放平台和飞桨平台上进行开发的开发者，超过了180万，发布的模型也已经有10多万以上，这些模型都在大量场景当中在使用。

我们可以看到这样的AI生态系统其实也在形成，AI产业化落地的整个链条比较复杂，角色也很多。在整个生态系统当中，我们能看到从硬件供应商到技术平台，到软件供应到应用开发，到最后的终端场景，是一个多层的完整的生态系统。那么这样的一套生态系统，现在已经形成了，并且在我们的基础设施上不断地发挥着作用。刚才我所介绍的大量的应用场景当中，所落地的应用和方案也有非常多都是在百度大脑的生态系统中研发落地的。

AI人才培养

除了技术平台、终端场景以及生态角色，贯穿始终的还有一个非常重要的就是人工智能、产业智能化相应所需要的人才。在AI人才当中，基础的理论人才、算法人才等等都很重要。但在整个应用落地过程当中，这类人才会更加重要，他们就是既懂应用场景，又懂AI技术的复合型人才。这些人才在大的技术平台型公司里一般都会有，但想让AI技术和产业去广泛的结合时，我们会发现这类复合型人才会需要各个终端场景以及生态当中的生态企业，去不断培养和积累起来相应的人才。

技术边界和业务理解本身之间是存在鸿沟的，怎么样能够弥补鸿沟？就是需要这些复合型人才来做到这样的一点。所以百度也有推出一系列对于AI人才、应用型人才的培养计划。

我今天介绍其中的一个项目，这个项目叫做首席AI架构师培养计划。怎么定义首席AI架构师，我们认为在企业当中懂自己的业务场景，懂应用当中的挑战与难题，又懂AI技术和算法，同时能够去落地实施的综合性人才是企业当中的首席AI架构师。对于需要把AI技术应用起来，进行智能化转型的企业来说，这一类架构师是非常重要的。我们推出了黄埔学院这样的一个项目，在这个项目当中学员会与深度学习技术专家进行面对面的深度交流；会有深度学习、技术落地的关键认知的传承；以及会去和学员们一起剖析场景需求与AI技术结合的典型案例。最后综合AI思维、工具、方法和技术解决方案，解决实际的场景问题，在实际的场景当中能够产生应用价值。

最后进行一个小结。新型的基础设施建设，不单单是有业务平台就可以实现的，它其实是一个全方位的工作。就好像我们在建设高铁，高铁的硬件设施就像今天在建设的AI基础设施，AI基础设施就是构建在云平台基础上，以算力平台和数据平台支撑形成的AI技术开发平台、能力平台。而场景技术方案综合的，以及AI安全保障的，是夯实有力的大型技术系统和工程系统。

在这样的基础之上，要不断地产生应用场景当中的应用价值，需要AI加持持续创新，在应用中发挥充分的价值，以此形成正向的循环，它也会促进基础平台进一步发展，促进整个AI系统进一步进化。但在AI的产业化过程中，因为它的过程链条长，角色复杂，也需要社会全方位地多方整合力量进行积木式社会的创新。因此共生共赢的生态系统也就应运而生了。

最后在基础设施、应用、生态三者形成的闭环当中，我们还需要去重视人才的培养，促成应用更加繁荣，需要加大力度培养既懂应用场景又懂AI技术的复合型新型人才，也需要构建相应的教育培训职业体系，多方位培养AI技术及应用人才，这也是AI加速产业智能化的重要组成部分。以上就是我对AI新基建的理解，也是基于AI建设新基建，发展产业智能化所需要考虑的几个重要的方向。

［本文作者吴甜，i黑马授权发布。如需转载请联系原作者授权，未经授权，转载必究。］