搜索引擎的3个目标
搜索引擎可以说是目前所有互联网应用里技术含量最高的一种,尽管其应用形式非常简单:用户输入查询词,搜索引擎返回搜索结果。但是要为以亿计数的互联网用户提供准确快速的搜索结果,里面包含了很多技术手段。总的来说,搜索引擎技术所希望达到的目标可以归纳为:更全、更快、更准,如图1-1所示。
图1-1 搜索引擎3个目标
所谓“更全”,是从其索引的网页数量而言的,目前任意一个商业搜索引擎索引网页的覆盖范围都只占了互联网页面的一部分,可以通过提高网络爬虫相关技术来达到此目标。
“更快”这个目标则贯穿于搜索引擎的大多数技术方向,比如索引相关技术、缓存等技术的提出都是直接为了达到此目的。而其他很多技术也间接为此服务,即使是分布式海量云存储平台,也是为了能够处理海量的网页数据,以达到对“更全”和“更快”这两个目标的响应和支持。
在这3个目标中,如何使得搜索结果“更准”是最为关键的目标。无论是排序技术也好,还是链接分析技术也好,抑或是用户研究等技术,最终都是为了使搜索结果更加准确,以此增强用户体验。对于一个搜索引擎来说,达到“更全”与“更快”可以使其不落后于同类产品,但是如果能够做到“更准”,则能够构建核心竞争能力。
搜索引擎的3个核心问题
如上所述,搜索引擎如何能够搜得更准是其最重要的目标,那么如何才能使得搜索结果更准确?这里面涉及了3个核心问题。
3个核心问题
1 用户真正的需求是什么
搜索引擎用户输入的查询请求非常简短,查询的平均长度是2.7个单词。如何从如此短的查询请求里获知隐藏其后的真实用户需求?这是搜索引擎首先需要解决的非常重要的问题。如果不能获取用户真正的搜索意图,搜索的准确性无从谈
起,即使后续内容匹配算法再精巧也无济于事。
从另外一个角度看,即使是同一个查询词,不同用户的搜索目的是不同的,如何识别这种差异?如果更进一步,即使是同一个用户发出的同一个查询词,也可能因为用户所处场景不同,其目的存在差异,又如何识别?所有这些都是搜索引擎需要解决的核心问题,即用户在此时此地发出某个查询,他的真实搜索意图到底是什么。
2 哪些信息是和用户需求真正相关的
上述第一个核心问题是从用户需求角度出发的,另外两个核心问题则是从数据角度考虑的。搜索引擎本质上是一个匹配过程,即从海量数据里面找到能够匹配用户需求的内容。所以,在明确用户真实意图这个前提条件做到后,如何找到能够满
足用户需求的信息则成为关键因素。
判断内容和用户查询关键词的相关性,一直是信息检索领域的核心研究课题,不断提出的信息检索模型即在试图解决这个问题。相关研究历时近60年,尽管不断有新方法提出,检索效果总体而言也在逐步改进,但是这个领域的基本指导思想还是基于关键词的匹配,包括现在所有搜索引擎的相关性计算部分,其基本计算思路和几十年前相比并无本质差异。
如何能够在这个核心问题上有所突破?这个问题将会越来越重要,而从关键词匹配到让机器真正理解信息所代表的含义是解决这个问题必须迈过的门槛。从目前来看,尽管包括人工智能在内的很多相关研究领域对此有所进展,但是短期内还未能看到解决这一问题的清晰技术思路。
3 哪些信息是用户可以信赖的
搜索本质上是找到能够满足用户需求的信息,尽管相关性是衡量信息是否满足用户需求的一个重要方面,但并非全部。信息是否值得信赖是另外一个重要的衡量标准。
搜索引擎需要处理的信息对象是互联网上任意用户发布的内容,但是内容发布者所发布内容是否可信并无明确判断标准。这其间存在恶意的信息发布者故意歪曲事实的情况,也有信息发布者无心的错误。在同一个查询的搜索结果内,完全可能存在相互矛盾的搜索答案,此时信息的可信性即成为突出问题。
比如用户想到某一餐馆就餐,在做出消费决定前,在网上搜索曾在此餐馆就餐的用户的过往评论,以此辅助决策。而搜索到的相关内容,完全有可能是餐馆故意发布的一些好评信息,以此误导消费者。但是如果信息发布者是该用户的朋友,那么信息的可信性就会大大增加。
从某种角度看,链接分析之所以能够改善搜索结果,可以认为是对信息的可信赖度做出的评判。即将网页的重要性作为是否可信赖的一个判断标准,返回重要网页即是返回可信赖网页。
文章来源: 黑市|灰产圈|黑产圈|一本黑|黑市商学院
共有 条评论