百度发力实体搜索:根据搜索词直接给答案
2012-11-19 15:34 搜索 百度

近期的确又观察到百度逐步将这一领域内的实验范围在扩大,验证了之前的部分猜想。对于有志于建设实体库、本体信息和语义网应用的新兴公司而言,可能后续还面领着更大的竞争。

  来源:36kr ?作者:@刚果不说话?

实体搜索, 知识图谱等名词在今年开始逐步提升曝光率(Google、百度分别发力实体搜索产品)。Google 新近发布的 iOS 版 Voice Search App 也表现出了不逊于 Siri 的功能,还特别强调了其整合知识图谱带来的「直接回答问题」的能力」。

相比于 Siri 底层的实体属性、关联关系等知识数据强依赖于和 WolframAlpha 的合作关系,Google 凭借自身高投入的知识图谱项目似乎更值得被赋予更高的期望值,搜索引擎公司在获取海量数据和提取知识方面的数据和技术优势是不言自明的。 对于中文市场而言,工业界在这方面的投入并不明显。除了 LBS 相关的信息外,Siri 在中文市场也缺乏有力的合作伙伴。在Google、百度发力实体搜索一文中,我们观察到了一些百度投入实体数据建设的一些迹象,比如:类似盗梦空间的电影。也做了一些大胆的预测:百度正在实体搜索领域内悄悄发力,同时采取深挖实体关系这一和 Google 不同的技术方向。近期的确又观察到百度逐步将这一领域内的实验范围在扩大,验证了之前的部分猜想。对于有志于建设实体库、本体信息和语义网应用的新兴公司而言,可能后续还面领着更大的竞争。

1、不掉毛的狗

2、濒临灭绝的植物

3、开黄花的树

从这些搜索结果可以看出,和之前电影类一样,百度的技术方向和 Google 不同:百度主要是在「深度」,而 Google 则强调「广度」。像「不掉毛」「濒临灭绝」这些细致的属性,传统的实体信息提取技术是无法涵盖的。但这种深入的属性数据挖掘,一方面得益于大量的网页数据,另一方面也受限于互联网数据里大量的噪音影响,是个技术难度和收益都比较大的方向。从目前的结果来看,这些深入挖掘出的属性数据在质量方面的表现是不错的,比如「不掉毛的狗」的结果中,除了雪纳瑞等较为常见的不易掉毛的狗以外,甚至可以覆盖到「冠毛犬」。假如在保证数据的质量的前提下覆盖领域可以不断扩大,对于知识类的问题,机器可以像 IBM Watson 一样直接给出超出人类平均水平的解答。

实体数据的深耕代表着搜索引擎具有的「智慧」和「知识」越来越多,搜索引擎公司一方面会进一步加强自身搜索结果「直接回答问题」的能力;同时发力进军智能助理这个新兴移动领域应该是个没有争议的事情。

文:36kr