【百度站长平台】搜索引擎索引系统概述
发布日期:2015/5/27 15:59:06
众所周知,pk10高手论坛:搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?
 
如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:
 
【百度站长平台】搜索引擎索引系统概述
 
(1)页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;
 
(2)分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
 
(3)之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},可以粗略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?
 
【百度站长平台】搜索引擎索引系统概述
 
上述即是索引系统中的倒排索引过程,是搜索引擎实现毫秒级检索非常重要的一个环节。
赛车pk10计划软件下载 pk10线上投注 北京赛车pk10改单软件 北京赛车冠亚和值规则 北京pk10玩法开奖记录
北京pk拾赛车开奖直播 易算北京赛车pk10 北京pk10辉煌投注网站 怎么看走势图 北京pk10开奖官网
北京赛车pk10qq群 北京赛车pk10直播北京赛车pk10开奖直播 北京pk10开奖手机软件 pk107教程视频 北京pk10冠亚军技巧
北京赛车pk10开奖完整 乘风pk10冠军号软件 北京赛车pk10模式测试 易算北京赛车pk10破解 北京赛车pk10平台改单
河南快三基本走势图▼江苏快3彩票站走势图 东方一分彩计划软件计划 真金捕鱼0.1-1元炮 辽宁11选5号码推存 熟人多人炸金花作弊
华东15选5预测排列三 黑龙江快乐10分走势图 上海时时乐乐 北京快中彩中奖规则计划 辽宁快乐12开奖结果,快乐12开奖结果查询,快乐12开奖结果,四川快乐12开奖结果
青海快3最近开奖 浙江飞鱼彩票历史开奖结果 Tiger国际娱乐城 宁夏十一选五走势表 1分钟极速时时彩走势图
香港六合彩管家婆 湖南幸运赛车前三百度 极速赛车14 青海湖号计划♀双色球开奖结果今天的计划♀打快三有什么规律计划♀2017青海省委一号文件 淘金国际娱乐城怎么样★金泰国际娱乐城★钻石国际娱乐会所广州