推广

分享搜索引擎索引系统概述,小编告诉你。

iseeyu3年前 (2023-11-22)推广123

众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?

如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:

分享搜索引擎索引系统概述,小编告诉你。

(1)页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;

(2)分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;

(3)之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},可以粗略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?

上述即是索引系统中的倒排索引过程,是搜索引擎实现毫秒级检索非常重要的一个环节。

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/126957.html

相关文章

干货来袭:史上超全信息流广告干货

干货来袭:史上超全信息流广告干货

接下来一起来看看第一篇 干货吧。 一、 信息流广告是什么? 1、一般传统广告 说到信息流广告,主要区别于一般传统广告,一般传统广告大多就是铺陈直述产品特点,有些更是夸张表达扼或自我吹嘘。另外,广告出现的位置比较明显,用户一眼即可识别。 比如逛某...

290万亿财富掌握在1%富豪手中!是普通人的2700倍

290万亿财富掌握在1%富豪手中!是普通人的2700倍

中国财富分配的不平等一直是一个备受关注的问题。根据中金公司发布的报告,中国社会财富总计约为790万亿,其中1%的富豪掌握了290万亿的财富。这意味着,少数人掌握了大部分的财富,而大多数人则只能分享剩余财富的一小部分。富豪人均财富超过6300万是普通人的2700倍。金字塔顶端...

对象内存布局和对象的访问定位

对象内存布局和对象的访问定位

image.png 此时的内存布局 image.png notice: 1.运行时元数据:放着一些描述当前实例的信息,比如hash值,锁状态。2.name是字符串常量存储在字符串常量池。 完整的内存布局图 image.png notice: n1.对...

小红书:用户运营策略分析报告

小红书:用户运营策略分析报告

编辑导语:如今,不少人在购买商品前都会在各种平台上找测评贴。以小红书为代表,小红书上入驻了许多博主,从明星到素人皆有,她们经常在上面发帖帮助大家种草或者拔草。在诸多产品中,小红书是如何占据有利市场,吸引了众多忠诚的用户呢?本文作者对小红书用户运营策略进行了分析,我们一起来看一下。...

分享小编告诉你,SEO新手需知的网站建设知识。

分享小编告诉你,SEO新手需知的网站建设知识。

对于一个seo新手来说,第一步应该先了解的一个基础知识。今天说网站建设的基础之前,我们先了解一下互联网与服务器之间是怎么相互联系在一起的! 其实互联网与服务器两者之间是通过发送“请求”来传输操作信号。 以上的请求的常识 首先要在提供“域名管理系统”商家购买到域名。之后,通过域名管...

18 个国外“增长黑客案例”

18 个国外“增长黑客案例”

  增长黑客(Growth Hacker)这一概念,最先由Sean Ellis提出,之后因Uber(优步)增长负责人Andrew Chen的一篇文章被大众所熟知。随后这一概念便风靡硅谷,其理念被一大批硅谷的互联网企业所践行,对硅谷乃至整个互联网领域都产生了深远的影响。 今天就...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片