得数据者得NLP:如何有效获取更高质量的标注数据?
2021-05-08 18:28 云测数据

自然语言处理(简称“NLP”)是计算机科学和人工智能领域最炙手可热的话题之一,也是最具挑战的难题之一。

微软全球执行副总裁沈向洋曾预判,“下一个十年,懂语言者得天下”。比尔·盖茨曾说过,语言理解是人工智能皇冠上的“明珠”。 由此可见自然语言处理(简称“NLP”)在人工智能中的重要地位和复杂程度。

过去二十年, NLP 利用统计机器学习方法,基于大规模的带标注的数据进行端对端的学习,取得了长足的进步。近几年来,NLP技术在我们看不到的地方也已经成为各种产品和应用的基础、核心。如:

当我们使用搜索引擎时,文本分词、信息抽取等各类NLP技术在后台默默工作;当我们在大众点评上查看各种评价时,信息挖掘、情感分析、语义理解等NLP技术在帮忙分析评论、打上标签,成为我们参考的依据;

此外,屡屡登上头条的AI写诗、AI撰写文章等产品背后,都是NLP技术在默默发挥作用。

*图为清华大学自然语言处理与社会人文计算实验室研发的诗歌写作系统

在这些功能实现的背后,离不开NLP 技术对标注数据的依赖。

NLP 技术本质上是基于深度学习的,相比于视觉或音频信息,自然语言更加抽象,蕴含了更加丰富的人类定义的知识,导致相比其他AI技术领域,NLP 对标注数据的要求也更负责、难度更大。据云测数据总经理贾宇航介绍,图像采标有很强的规则性,按照规范化的指导文档工作即可,相比图像、视频等数据类型,NLP数据采标方式更为复杂。

此前小米首席 NLP 科学家王斌在接受 InfoQ 采访时也曾表示,获得大规模的高质量标注数据永远是个难题。当前主流方法的效果取决于标注数据的规模和质量。

如何有效获得高质量、大规模的标注数据,选择专业的AI数据服务商当属最优选。以国内头部数据标注企业云测数据为例,其针对NLP提供的训练数据拥有专业且丰富的能力。

专精于场景化、高质量数据服务的云测数据有一整套的标准化流程和方法论,用来产出更高质量的NLP数据。

首先,云测数据的“场景化”服务模式,可满足NLP复杂、精深而个性化的数据要求。具体到数据采集上,可满足特定人物(性别、年龄)、特定场景(家居、办公、商业等)、不同方言的声音/文本数据采集;在数据标注上进行需求的对接、理解清楚场景化要求再分发尽量具体的规范指导(同样一句话在不同交流目的中可能需要标注不同的内容,例如“我没钱”在信贷服务中意味着潜在客户,在理财服务中则表达拒绝的态度)。

其次,云测数据对数据服务团队的专业性和标注能力有着严格要求。

在云测数据,NLP标注能力支持ASR语音转写、声纹识别标注、说话人识别、语音切割、情绪判定标注等;同时还支持OCR转写、NLU语句泛化、文本信息抽取、实体标注、词性标注、槽位填充等,具备全方位的语音标注能力。

以智能客服单个场景的意图标注,就分为10-20个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。尤其在医疗、法律、教育、智能驾驶等高度专业化的领域中,对标注人员的专业能力有着相对应的门槛,才能进行正确的数据标注与解读。

再次,在技术层面,云测数据具有自主知识产权的数据标注平台拥有灵活、高效、智能的特点。云测数据标注平台会根据实际使用中的反馈,以每周甚至更快的频率进行功能迭代,以技术结合更多的落地场景,不断提升数据标注工具的技术含量。同时,云测数据也致力于通过工程化开发来减轻数据标注中的重复劳动,大幅度提升标注质量和效率。同时在保证数据隐私安全的同时,还支持平台私有化部署,可最大程度保障数据安全性。

高质量数据是NLP发展必需的土壤

现阶段,人工智能的蓬勃发展浪潮逐渐进入下半程。自然语言处理技术在发展过程中存在的技术难点和挑战之一就是数据的问题,如何提升数据的质量影响着NLP技术的落地程度,也是当下AI企业所面临的挑战和机遇。

在这种趋势下,NLP相关厂商与云测数据这类高质量数据服务商进行深度结合,促进感知智能向认知智能的转变。在云测数据服务的数百家企业中,既有各大头部AI企业,也有各个行业的龙头企业。这些企业在追求更高的AI认知智能准确度的过程中,与专注于高质量场景化的云测数据保持着长期良好的合作。

云测数据总经理曾表示,当下对数据的使用有逐渐变“大”的趋势。他认为高质量、场景化的数据服务正在扮演越来越重要的角色,它带来的影响不仅是效率提升、技术升级。随着AI行业的高速发展,它所影响的,很可能是我们的未来生活的方方面面。

可以预见,在高质量的AI数据的推动下,NLP 技术将不断突破,与其他人工智能技术一道深刻地改变人类的生活。