THERE IS NO END TO LEARNING

搜索引擎的工作原理

作为互联网应用中最具技术含量的应用之一,优秀的搜索引擎需要复杂的构架和算法,以此来支撑对海量数据的获取、存储,以及对用户查询的快速而准确地响应。这篇文章主要介绍搜索引擎的整体构架和各个组成模块的功能。

下图是一个通用的搜索引擎构架示意图。搜索引擎由很多技术模块构成,各自负责整体功能的一部分,相互配合形成了完闪的整体构架。

《搜索引擎的工作原理》

搜索引擎的工作原理

由于搜索引擎已经进步到了用户为中心一代,(详见:搜索引擎发展史)同时互联网上面的网页数量也是惊人的,搜索引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果,使用单台机器明显是不现实的。GOOGLE等商业搜索引擎为此开发了一整套云存储与云计算平台,使用数以万计的普通PC搭建了海量信息的可靠存储与计算构架,以此作为搜索引擎及其相关应用的基础支持。优秀的云存储于云计算平台已经成为大型商业搜索引擎的核心竞争力。

 

当搜索引擎接收到用户的查询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。在此之后,首先在缓存中查找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可以直接将搜索结果返回给用户,这样既省掉了重复计算对资源的消耗,又加快了响应速度;

如果保存在缓存的信息无法满足用户需求,搜索引擎需要调用“网页排序”模块功能,根据用户的查询实时计算哪些网页满足用户信息需求的,并排序输出作为搜索结果。而网页排序最重要的两个参考因素中:一个是内容相似性因素,即哪些网页是和用户查询密切相关的;另一个是网页重要性因素,即哪些网页时质量较好或者相对重要的(这点往往可以从链接分析的结果获得)。结合以上两个考虑因素,就可以对网页进行排序,作为用户查询的搜索结果。

 

除了上述的子功能模块,对搜索引擎的“反作弊”模块成为日益重要的功能。搜索引擎作为互联网用户的上网入口,对于网络流量的引导和分流至关重要。

点赞
  1. 情侣说道:

    话说搜索引擎是相当 的聪明的

    1. NICK说道:

      不聪明也不行啊,谁要SEOer都那么聪明呢?哈哈

  2. Louis Han说道:

    嗯 以前就是干这个的

    1. NICK说道:

      干啥? 搞搜索引擎的?

  3. 逗乐说道:

    有个图片看起来直观多了~

    1. NICK说道:

      配图是必要的 。

  4. 曲欣芝博客说道:

    这个还真不懂,原来它的工作原理是这样子啊,站长都要了解一下才行。

    1. NICK说道:

      这个只是简介,要是有兴趣,我可以整理下,把完整的工作原理放出来 。涉及到机密的内容我可没有。