消灭搜索框的多媒体搜索，路在何方？_方法论

消灭搜索框的多媒体搜索，路在何方？

2015-09-09 18:26 多媒体搜索框

搜索引擎必须能听、会看，才能实现真正的智能。

2015年百度世界展出了语音和图像为代表的多媒体搜索技术，这并非其首次亮相百度世界大会，多媒体搜索已成为百度的重头戏，与连接人与服务战略、人工智能战略一起构成百度的“三驾马车”。

多媒体搜索越来越重要

各大搜索引擎在搜索框之外，迎来两个新图标：话筒和相机，分别对应到语音和图像搜索。通过向搜索引擎说一段话发号施令，或者直接拍摄生活中的实景，表明搜索意图更加简单和自然。让机器“听”和“看”，是人类一直孜孜不倦的追求，这也是人类获取信息最重要的两种方式。

鉴于未来的搜索引擎不再是回答问题的“百科全书”，而是帮助人们解决生活中各类需求的“智能助手”，所以它必须越来越聪明，接近人类的智能。一个重要的改进方向便是交互，搜索引擎必须能听、会看，才能实现真正的智能。所以，在后移动互联网时代多媒体搜索会成为主流，依赖键盘输入的文本搜索比重将越来越小。李彦宏对此早有断言，他认为未来超过一半的搜索将来自语音和图像为代表的多媒体交互。

语音和图像搜索并非新技术，90年代IBM便推出了语音输入软件，2008年Google 就推出了Voice Search以及“以图搜图”，百度在PC时代也有过类似尝试。移动互联网时代语音和图像搜索才进入真正意义上的商用阶段。移动互联网带来了语音和图像搜索的使用场景，带来了具备麦克风、喇叭和摄像头的智能设备，语音搜索和图像搜索技术也迎来飞速发展，量变产生了质变，语音和图像搜索正在走向大众化，与文本搜索一样举足轻重。

百度猛攻语音和图像搜索

多媒体搜索有广泛的涵义，除了文本之外的“富媒体”搜索都算多媒体搜索，例如语音、图像、体感、位置、社交关系、物质解析（百度筷搜）等输入内容。不过，最重要的两类搜索是语音和图像搜索。在去年百度展出了通过拍照搜索识别动态衣服的技术，基于图像搜索技术的百度EYE以及小度机器人，2015百度世界重点展出了语音和图像搜索技术的进展，百度在语音和图像上依然还在大力投入和不断改进。

Siri为代表的语音助手普及，培养了人们通过语音与机器交互的习惯，在家里为代表的安静场景、在车内为代表的双手不空闲场景，在步行为代表的打字不便场景，语音都有很大的施展空间。而且语音不需要学习，包含情感色彩，能够传递更多信息。倘若技术达到应用标准，语音交互技术爆发是必然事件。

语音交互与搜索引擎的结合正在日趋紧密，不久前Siri与百度达成合作引入百科等内容，百度在今年则陆续将语音与搜索、外卖等业务整合，百度做语音的底气来自于两点：一是技术上应用深度学习大幅提升了识别准确率；二是百度拥有丰富的后端内容和服务。这意味着百度语音和图像搜索的发展对百度连接人与服务战略有很强的支撑效果，百度强调要做更具技术含量的O2O，例如支持通过语音点外卖。

图像搜索受益于二维码的普及，不过二维码是结构化的图形，机器的最终目标是像人眼一样去认识世界。人类90%的信息来自于视觉，“看”在信息获取上是主要方式。上传一张图片让机器识别并不是很自然，但如果机器都拥有摄像头和快速识别能力，其理解世界的方式将非常自然。将图像识别与后端知识库和各类服务打通的图像搜索，是一种所见即所得的自然搜索。

百度在这块进行了大量探索，例如识别一张图片中的物体并与广告内容结合，识别图片中的文字进行翻译，识别文本化的题目并解答，识别药品并介绍疗效以及导入药店……这些基于百度深度学习等后端人工智能技术，以及海量的图片数据库和内容知识图谱。

对于百度而言，语音和图像搜索的投入是站在交互角度来突破移动搜索现有形态。鉴于使用场景的特性，多媒体搜索对于百度连接人与服务战略将形成很强的支撑作用。服务搜索主要来自于移动搜索，而移动搜索未来将走向多媒体搜索。除了连接人与服务，百度还有一个战略是人工智能等前沿技术的布局，语音和图像搜索的基础正是来自于深度学习、大数据等技术成果的转化。所以语音和图像搜索成为百度将人工智能等研发成果转化到连接人与服务实践的“桥梁”。

多媒体搜索未来走向何方？

多媒体搜索依然还在起步阶段，远远没有文本搜索这样成熟，这意味着还有很多创新空间。从多媒体搜索探路者百度的动作来看，多媒体搜索在未来有以下发展趋势：

1、不同类型搜索相互结合。现在语音是语音、图像是图像，未来语音、图像、位置、文本乃至视频，各种形式的搜索会融合在一起，就像人与人的对话一样，你理解对方的意图即要听、又要看（环境、表情、手势……），可能还会结合上下文，总之是综合多类搜索来理解的。未来多媒体搜索同样会语音、图像等并用，例如你可以拍照之后问百度一句话，“这张图片中的狗是神马品质”，模拟人与人的交互。

2、多轮对话式搜索兴起。语音搜索现在大都是用户问一句，搜索引擎给出一个答案，图像搜索同样只能进行“一轮”。但人与人之间的对话是有“上下文”联系的，两人之前谈的内容，会影响之后双方的理解。因此语音、图像搜索未来会更倾向于“多轮”，即搜索引擎可以记住之前的多次交互过程，并结合此理解用户的语音或图像，例如用户可以先问“广州的天气怎么样”再问”那边有什么好吃的”，这样搜索引擎就可以理解“那边”是指代广州。百度已为此申请“多轮交互专利”，语音交互可进行需求引导，根据上下文和大数据分析智能纠错；Siri则初步实现了某些Case的多轮交互，比如语音调用联系人之后的二次选择。

3、解析速度决定用户体验。语音和图像搜索过去受限于计算速度以及网络速度，有一定延迟，随着云计算、大数据相关技术的成熟，识别速度得以快速提升。4G和WIFI的普及、带宽提速也逐步消除了网络障碍。不过识别速度依然还有提升空间，如果问人一句话，给人看一张图，要等几秒才有答案还是让人不爽，近期某手机厂商主打离线语音助手提升识别速度就反映了这个问题。搜索引擎正在通过离线识别等技术来提升解析速度，百度语音识别采取动态解码技术，实现了仅几十毫秒延时的快速识别。

4、基于场景的搜索服务能力。语音和图像搜索在复杂的场景中进行，搜索发起的时间不同，地点不同，用户的习惯、情绪有别，意味着背后有不同的需求，因此搜索引擎必须去识别用户所处场景，与其位置、环境、个人画像等数据结合起来分析，甚至尝试根据语速、语调去分析用户情感。同时整合丰富的服务对用户需求进行满足，比如当用户在外面搜索“麦当劳”应该首先推荐周边餐厅，在家里和办公室则优先推荐外卖服务……基于场景去满足用户的搜索需求。

5、无处不在的语音和图像搜索。现在百度语音图像搜索主要存在于网页版百度、手机百度、百度HD版等百度系产品中，但同时要注意的是百度已经通过开放平台开放其语音和图像搜索技术。这意味着许多应用和设备都有机会用到语音和图像搜索，它是一种开放能力，例如智能音箱可以用语音搜索歌曲并播放，汽车厂商在车内预装语音助手，智能电视通过语音操控和搜索节目……就是说，未来语音和图像搜索是无处不在的。

［本文作者罗超，微博@互联网阿超。文章仅代表作者独立观点，不代表i黑马观点与立场。］