语种识别率超99%,网易包揽国际顶级比赛ICDAR SIW 3项冠军
2021-05-22 19:58 网易

网易又一次拿下国际比赛冠军。近日,网易数帆在国际比赛ICDAR 2021中,以明显领先第二名的成绩包揽3个任务项目的冠军,在多语种OCR领域(文字识别领域)获得国际权威认可。

ICDAR由国际模式识别协会组织,是文档分析与识别领域公认的顶尖国际学术会议,被誉为OCR界的奥斯卡。而SIW语种识别比赛旨在促进少数语种的发展与传承,是ICDAR今年举办的10项竞赛之一,也是业界首次大规模的语种识别竞赛。

据了解,本次SIW语种识别比赛吸引了韩国最大互联网公司NAVER、华南理工DLVC Lab等世界一流的科技公司、高校参加。

比赛分为手写体识别、印刷体识别、手写印刷混合识别三个赛道,参赛团队需要识别5000张样本图片上的文字属于哪一个小语种。最终,网易提交的识别结果中,手写体识别准确率99.69%,领先第二名0.55%;印刷体识别准确率99.99%,领先第二名0.19%;在最难的手写体印刷体混合识别赛道上,网易准确率99.84%,领先第二名1.07%。

(ICDAR 2021 SIW比赛3个任务结果,网易均列第一)

网易数帆AI技术团队表示,这三个赛道任务主要有两个难点。首先,不同语种的相似度非常高,如泰米尔语和马拉雅拉姆语等,对于识别模型的细粒度分类性能要求非常高。样本文字都是以句子形式出现,存在连笔。再加上手写体笔迹潦草,即使是同样内容,不同的笔迹又增加识别难度。

(相似度非常高的泰米尔语和马拉雅拉姆语也需要精准识别)

网易研发了一种语种细粒度识别模型,创新性地仅用了单一模型解决了三个任务。相比于传统的文字分类问题,将语种分类问题转换为了语义分割问题,给每个像素点都赋予一个监督信息,让模型注意到样本的每个局部细粒度特征。同时,优化了目前业界最流行的Transformer结构来增强细节特征的表征能力,进一步提升了对手写体的识别精度。此外,大规模预训练技术以及半监督技术也极大地提升了模型泛化能力和识别准确性。

据了解,这已不是网易第一次获国际权威技术比赛认可,在此之前,网易伏羲已经拿下了多个全球顶级比赛的奖项,比如问鼎全球AI文创大赛(GAAC),获得ASE 2019最佳论文奖等等。

同时,网易也不断突破技术边界,将技术研发与业务价值结合。当业务面临新痛点、新问题、新场景时,网易不断升级迭代AI能力,促进业务应用创新。

目前,网易数帆通过AI技术研发与专项解决方案,将OCR技术在泛娱乐、音乐直播、电商等场景中成功落地,又例如网易云音乐的MV歌词字幕识别、网易游戏的身份验证、网易严选的商详页解析、网易易测的ICON自动化检测定位等,都有OCR技术的身影。

网易伏羲的沉浸式活动系统,虚拟人技术等也已经运用在动画、教育、文旅、会议等越来越多的场景中。网易更多的技术创新成果正逐步落地。