Facebook 使用人工智能帮助盲人「看到」图片
2016-04-07 09:43 人工智能

不过从我自身作为一个盲人用户来说,能够知道照片的场景已经让我的满意度从零提升到了 50 %,这可是一个巨大的跨越。

视力障碍用户也有使用社交网络的需求,他们虽然能够通过读屏软件获得文字信息,但是却看不到朋友们贴的图片,Facebook 的自动替代文本功能将帮助他们感受图片之美。

Facebook 如今已经开始使用人工智能为信息流中的图片自动生成标题,以帮助那些视力障碍人士「看到」图片内容。

这个功能被称作自动替代文本,当它与文本-语音引擎相互配合的时候就可以为使用 Facebook 的盲人们带去不一样的体验。该功能基于深层神经网络技术,系统可以识别出照片里的特定对象,从车到船,从冰淇淋到比萨饼都可以一一分辨。除了辨别照片中的物品之外,它还能找出照片中人的面部特征,比如说微笑上翘的嘴角、大胡子以及戴眼镜。在这些微观识别的基础上,该功能还能够判断出图片中一般意义上的大背景,确定照片中是否包含了阳光、海浪或者雪景。当一张图片被完全识别出来之后,文本语言引擎就会大声地为盲人用户读出图片上的内容。

Facebook 一位名为 Matt King 的员工在去年秋天就向我介绍这一产品原型。 King 今年 49 岁,自己就是一位盲人,虽然他也坦承这一服务远非完美,但是却已经能够明显改善视力障碍人士的使用体验。这话着实不错, King 向这个系统展示了一张他的朋友骑行欧洲的照片, Facebook 的人工智能描述出了这张照片显示的是户外场景,包括了草地、绿树与云朵,附近还有一片水域。如果在以前这张照片出现在 King 的信息流中,他能够知道的仅仅是朋友刚刚发布了一张新照片。

「我梦想着这个人工智能系统除了描述照片所处场景之外,还能告诉我照片里包括了 Christoph 和他的自行车,」 King 希望能够不断改进这一系统,「不过从我自身作为一个盲人用户来说,能够知道照片的场景已经让我的满意度从零提升到了 50 %,这可是一个巨大的跨越。」

就像 King 所说的那样,该系统并不总是能够描述得准确无误,并且它现在还不能根据照片内容生成一个完整有逻辑的句子。但是路要一步步走,这些功能在将来都会得到完善,已经有其他公司使用了深层神经网络为视力残障人士服务,且走得更远。这一功能虽然并不完善,但是推出它已经是意义重大。而 Facebook 也表示,在该语音读图功能上线后,已经有超过5万人通过文本语言引擎使用了该服务。

文章来源:Wired,TECH2IPO / 创见 陈铮 编译,首发于创见科技