中国版 Prisma 来了，我们今天再聊聊深度学习 _方法论

中国版 Prisma 来了，我们今天再聊聊深度学习

2016-08-16 18:39 Prisma 深度学习

在量化与风格之间，吊诡的是时间。最勤奋的油画画家达芬奇，画一幅普通作品也需要花费一周左右；而到了人工智能时代，这个时间是：不到 20 秒。

2016 年 8 月 16 日凌晨 00：01，湖南欧斐网络科技有限公司开发的 “深黑” APP 在 Android 平台上线公测版。“深黑” 的自我简介如下：

“为艺术爱好者打造的神奇手机 APP，让你的照片瞬间变换成艺术风格作品。不同于传统滤镜，深黑基于人工智能，每个风格都是由真正的艺术家训练、创作而成。只需轻轻点击，就能得到不同艺术风格，让人惊叹不已。”

“基于人工智能”、“不同于传统滤镜”这些用词，加上看作品画风，让人联想起 2016 年大火、仅次于 Pokeman Go 的 APP——Prisma。

深黑的作品展示。图片来源：http://www.oandf.cn/deepblack/index.html

Prisma 体现了当今人工智能时代，人们想要用计算机代替传世画家的野心。印象派、野兽派、浮世绘、波普、解构主义，曾经艺术风格都是画家脑中不可捉摸的概念。而到了人工智能时代，所有艺术风格都被证实是可以进行 “量化” 的，并且通过机器学习，可以源源不断地产生新作品。

在量化（数学）与风格（艺术）之间，吊诡的是时间。最勤奋的油画画家达芬奇，画一幅普通作品也需要花费一周左右；而到了人工智能时代，这个时间是：不到 20 秒。

趁着中国版 Prisma 的发布，我们今天复盘一下深度学习的图像应用。

把计算机 “调教” 成梵高

‍‍似乎‍‍欧洲国家对艺术这件事比其他地区更有群众基础。早在 2016 年 Prisma 大火的一年之前，就有三个德国研究员想把计算机调教成梵高。

这三个研究员名字分别叫做莱昂 · 盖提斯（Leon Gatys），亚历山大 · 埃克（Alexander Ecker）和马蒂亚斯‍‍ · 贝特格（Matthias Bethge），来自德国图宾根大学（University of Tübingen）的 Bethge 实验室。他们研发了一种算法，模拟人类视觉的处理方式。具体是通过训练多层卷积神经网络（CNN），让计算机识别，并学会梵高的 “风格”、然后将任何一张普通的照片变成梵高的《星空》。‍‍

Deep Art 首页贴出得到一张 “梵高风格” 图片的步骤。第一步，吸收用户拍摄的照片。第二步，让计算机学会星空图的风格。第三步，计算机输出自己做的“新画”。图片来源：https://deepart.io/#

‍‍‍在人类的视觉系统中，从眼睛看到一件实体，到在脑中形成图像的概念，中间经历了无数层神经元的传递。底层的神经元获取到的信息是具体的，越到高层越抽象。

这三个德国人发现，如果用计算机模拟这个网络，将每一层的结构分析出来，能看到：在采样过程中，底层网络对于图像的细节表达得特别清楚，越到高层像素保留得越少，轮廓信息越多。

所谓深度学习（Deep Learning）中的 “深度（Deep）” 即意为层数。神经网络的每一层都会对图片特征进行提取，而 “艺术风格” 则是各层提取结果的叠加。

这三个德国人把他们的上述发现写成了两篇论文：《艺术风格的神经算法（A Neural Algorithm of Artistic Style）》，和《利用神经卷积网络进行纹理合成（Texture Synthesis Using Convolutional Neural Networks）》，在学术圈引起极大的讨论。

“起初，我们只是想创造一个关于神经科学的新鲜事物。而艺术人工神经网络的状态与人类的视觉系统有颇多相似之处。所以后来我们觉得，可以对图片做更有趣的处理。” 莱昂 · 盖提斯对深蓝 Deeper Blue 说。

论文发表后不久，他们便建立了一家名为 Deep Art 的初创公司，着手实现他们在论文里提出的想法。

Deep Art 网站，图像制作界面。Deep Art 提供多种艺术风格选项，图像制作完成后需发至用户邮箱。图片来源： https://deepart.io/hire/

‍用户在 Deep Art 网页上上传自己的照片，然后通过 Deep Art 提供的 “机器人梵高” 进行新画创作。整个过程需要等待几个小时让计算机进行数据运算和处理。用户可以选择清晰程度不等的作品。用户可以花上 19 欧买一张适合明信片用的作品，或者多掏 100 欧，买一张大尺寸油画级别的。

莱昂 · 盖提斯们做的事情并不是美图秀秀的滤镜。在 Deep Art 出来之前，已经有很多致敬莫奈与梵高的滤镜类应用，但核心原理和 Deep Art 完全不同，比如 2010 年上架的 Mobile Monet, Van Gogh Camera 。‍

Camera Monet 与 Van Gogh Camera的界面展示。这两款滤镜软件，都能讲用户照片渲染成某种艺术效果。但核心原理和Deep Art使用的卷积神经网络完全不同。（深蓝制图）。

如果我们将同一张图片放入 Van Gogh Camera 中，Van Gogh Camera 会按照程序员事先内置的 “公式”，计算图中每一个像素点，最后输出一张梵高风格的照片。但只要我们想将图片风格从梵高换到毕加索，程序员就必须重新写一套代码，更改计算 “公式”。

而在 Deep Art 中，编写 “公式” 的程序员是卷积神经网络（CNN），只需输入梵高的《星空》，卷积神经网络便能自动提取这幅画作的风格特征，并量化成具体公式。也就是说，艺术史上所有的作品都能作为滤镜来源。

“卷积神经网络可以被看做是一个机器艺术家。” 莱昂 · 盖提斯说。‍

从德国到俄罗斯

‍‍‍2016 年年初，俄罗斯计算机工程师阿列克谢 · 莫伊谢延科夫（Alexei Moiseyenkov）读到了这三个德国人的论文。他敏锐地嗅到，德国人做的远远不够，这项技术在消费级市场仍是一片空白。

随后他组建了一个四人团队，研发了 Prisma，力求做到：免费，更快，更简单。“ 两个月研究数学模型，一个半月开发。” 莫伊谢延科夫说。

“ Prisma 第一次将这项技术成功商业化。他们充分考虑了智能手机覆盖率的飞速增长，并且细致研究了用户行为。Prisma 接入的是以亿数量级的市场。” 《莫斯科时报》这样报道他们：“ 谁抓住了用户需求，谁就能成为亿万富翁。”

Prisma 的横空出世，算是俄罗斯互联网圈子少有的高光时刻。2016年6月中旬，这款应用刚在 iOS 上发布，15 天内下载量 750 万，火遍四十个国家。

巨大的成功甚至让开发团队措手不及，不得不以每天扩大一倍的速度提升服务器处理能力。

“看起来，整个俄罗斯都被我们征服了。” 莫伊谢延科夫随后在 Facebbok 上写下了这句话。8 月 2 日，Prisma 全球范围内已获得超过 5000 万用户。‍‍‍

坐拥 2300 万粉丝的俄国总统梅德韦杰夫也成为 Prisma 的用户。他在 Instgram 上晒出一张 Prisma 作品，迅速获得 8.7 万个赞。

Prisma 比 Deep Art 先进的地方在于，它大大缩短了图像处理的时间。在用户还没有达到十几亿数量级的时候，每张照片在 Prisma 系统内的处理时间只有 20 秒。其次，Prisma 是一款免费手机应用，相比网页版的 Deep Art, 无疑具有更多的用户基数。

20秒，全球的某个角落，一个用户上传照片，他的照片被传送到位于莫斯科的服务器上，Prisma利用人工智能和神经网络进行处理，然后经 “风格化” 后的图片再返回用户手机。

这个速度在业内是顶级的。为什么这么快？

“一定是下了血本，”一位来自国内著名人脸识别技术公司的工程师告诉深蓝 Deeper Blue，“在我当时搭建的框架之下，用普通笔记本的计算能力，做一张这样的图有可能需要几个小时。”

德国人莱昂 · 盖提斯则对深蓝 DeeperBlue 猜测道：“我认为他们训练了一个前馈神经网络来制造图片。”

“Prisma 没有完全依赖机器学习，而是对一些关键的内容加以控制。”一位业内人士则对深蓝 Deeper Blue 说，“例如，在海量的用户上传内容中，一定有相当一部分比例是人像，而相对于原始算法，Prisma 对面部细节的处理似乎更胜一筹，也许他们专门加入了对面部的识别和控制。”

据莫伊谢延科夫自己介绍，Prisma 一共用了三组神经网络，它们分工明确：两组神经网络负责的风格提取和照片制作，还有一组神经网络作为后台，为整个计算过程加速。

相比之下，Deep Art 更像是精工细作的手艺人。莱昂 · 盖提斯认为自家的原始算法虽然慢一些，但在细节表现力上更胜一筹—— “是真正的艺术品。” Deepart.io 提供的收费高分辨率大图，堪比一副挂在博物馆墙上的画。

Deep Art 主页上，关于作品定价的界面展示。图片来源：https://deepart.io/pricing/

“他们的风格化工作比最初的工作要弱了些，我认为他们是做了一些较低级别的图片处理，以掩盖风格化的不足，例如，加强了边缘的表现。” 莱昂 · 盖提斯对深蓝 Deeper Blue 说，他认为 Prisma 牺牲了艺术质量而求速度。

群雄逐鹿

大部分人之前推测 Prisma 会推出更多滤镜来变现，但在 Prisma 主创拜访过 Facebook 之后，爆出他们的下一步的计划是做视频。2016 年 7 月20 日，Prisma 创始人莫伊谢延科夫在 Facebook 官方账号上上传了一段 29 秒的音乐视频。这段视频的每一帧，都经过艺术风格渲染。

一段 Prisma 艺术效果视频。Prisma 已经在官方 Facebook 上发布了多个音乐视频。

然而，并不只有 Prisma 一家在转视频这个方向。

仅仅隔了 9 天，Prisma 的天使投资方、俄罗斯互联网巨头 Mail.Ru 公司副总裁安娜 · 阿塔莫诺娃（Anna Artamonova）在 Facebook 上宣布了 Prisma 直接竞品 Artisto 的发布。这是一款结合神经网络和人工智能技术的视频处理软件，可以为视频添加动态的艺术特效。虽然视频长度不能超过 10 秒，但名画风格的图像 “动起来” 确实赏心悦目。阿塔莫诺娃称这个视频软件只花了 8 天时间研发。

副总裁阿塔莫诺娃接连在 Facebook 上发布 Artisto 制作的视频。图片来源：https://www.facebook.com/artamonova/videos

在 Prisma 安卓版上线的第二天，俄罗斯最大社交网站 VKontakte 也推出了一款和 Prisma 类似的产品：Vinci，两者的功能和外观都非常相似。Vinci 不仅将图片加工时间缩短到了 2 秒钟，还快速开放了 iOS 与安卓市场，并且覆盖到 Prisma 未能涉足的 Windows Phone 领域，成为 Windows Phone上第一个运用神经网络的软件。值得一提的是，社交网站 VKontakte 也是 Mail.Ru 的旗下产品。

截至到 2016 年 8 月 2 日，在俄罗斯 APP Store 免费榜上，Artisto 高居榜首，Vinci 位居第二，而 Prisma 则落到了第五的位置。

图片制作软件 Vinci 的界面展示。图片来源：http://mspoweruser.com/vinci-great-alternative-prisma-now-available-windows-mobile-devices/

不仅仅是俄国人在想视频这件事，Deep Art 那三个德国人也瞄准了视频市场。前不久，Deep Art 官方网站放出了一段 demo，开始制作付费短视频。一段 720p的视频（最长五分钟）售价 249 欧元。

Deep Art 的产品高价位和慢速度，定位的是中高级市场。而在大众消费端，免费产品 Prisma，Vinci，Artisto 不论谁赢，都是俄罗斯互联网巨头公司 Mail.Ru 的胜利。与其说几款产品是在技术上较量，不如说这是互联网资本大鳄的强势布局。

然而，事实上深度学习在视频上还处于起步阶段，主要面临如下三个挑战：

第一，视频的数据处理量比图片更大，对计算能力的要求指数级增加；

第二，如何保持帧图像在时间轴上的信息一致性，而不是单独处理每一帧图像，也是难题；

第三，视频中的物体时刻在运动，如何追踪其在空间中的动态变化，研究员们还没找到好的方法。

除了我们盘点过的这些 “滤镜类应用”，深度学习在图像处理上应用还有很多。总的说来，深度学习图像应用按照过程可以分为两部分：输入与输出。

输入可以视作是 “机器视觉”，即机器内部建立起对图像的理解与认知——比如去判断图片中人像是不是本人，对图中物品进行分类等；

输出是进一步做出判断、决策，并触发行动，比如自动驾驶中通过分析摄像头采集到的道路信息，对控制系统下达加速、停车等指令。

在图像识别的高准确度的基础上，深度学习能够完成更为复杂的任务。举个例子，如果说百度图片搜索、微博自动检测图片中的敏感词属于计算机理性认知层面应用的代表，那么像 Prisma 这样的应用就是在深度学习的帮助下，让计算机不仅可以理性识别，还能感性认知图片，理解图像的风格与内容关系。

这才是人工智能的意义所在。计算机感知能力的发展决定了机器世界能否真正建立自洽、完整的知识体系，最终实现对人类能力的替代、延伸和增强。

按领域内容，深度学习在图像中的应用分为：图像识别、分类、检测、搜索、特征提取和视频处理这几大类别。其中，人脸识别是突破最快的深度学习图像应用。早在 2014 年便有多个初创科技团队达到了逼近或者超越肉眼的识别率，如下图展示：

各公司利用自己的公开样本集测试，提交测试结果。结果显示，汤晓鸥教授团队研发的人脸识别产品 Deep ID 已经超越肉眼的识别率。其中，小横线上面是技术产品名，下面是团队名称。（深蓝制图）

这几家公司中，Facebook 已经将 Deepface 的成果整合到自家产品中了。如今，用户上传照片到 Facebook 账号，系统就能自动标注图中的每一个人。而旷视科技和以汤晓鸥教授为技术核心的 “商汤科技”，则主要为金融、安防等部门提供成熟的身份认证产品，客户包括支付宝、招商银行、反恐部队等。

商汤科技与旷视科技主要客户对比图（深蓝制图）

Facebook 可能是这三家巨头中对深度学习图像应用最具有野心的大公司。据内部可靠消息，Facebook 或将在下周末（2016年8月底）将他们最新的研究成果代码开源。如果用一句最简单的话来形容 Facebook的新突破，叫做 “采用无监督学习让计算机无中生有，自己生成图片”。

三大互联网公司在深度学习上的布局一览。（深蓝制图）

在以往，人们让计算机去做图像生成采用的是监督式学习，即需要利用大量带标签的数据去训练人工神经网络，后者才能逐渐学会识别东西。比方说，给计算机看 1000 张猫的图片，看多了之后神经网络会逐步对猫建立模型并识别其他猫的图像。

但在今天，Facebook 采用的是无监督学习，让计算机自主生成一些含有飞机、汽车、小鸟等东西在内的场景图像样本，并令观众信以为真。

Google 的 Deep Dream 是一个会画画的计算机。它自动识别图像，筛选出某些部分，进行夸张，以创造出一种迷幻效果。半年前，Deep Dream 于湾区举办了成功的画展。Deep Dream 模仿 500 年前文艺复兴时期的德国画家汉斯·荷尔拜（Hans Holbein）的笔触与绘画技巧，画出了一系列硅谷名人。每张画作足以让人们掏出几千美金来收藏。

然而，Deep Dream 的算法有时候会给人惊吓。如果它发现你的脸部线条有点像一只狗，于是它会把那一块区域画成一个完整的狗。“这就像吃了 LSD，计算机会出现幻觉。于是到处都是狗！” 一位来自 Google AI Lab 的员工说。

Google Day Dream 的画作。图画中不少区域被计算机处理成狗头、漩涡。

无论如何，计算机正在向我们展示它们自己的梦想。

［本文授权转载自深蓝DeeperBlue（ID：deeperbluetech），文章仅代表作者个人观点，不代表i黑马立场。］