?
欢迎访问天宏seo博客!
当前位置:秒速时时彩app下载 > seo案例分析 > 正文 正文

什么是搜索引擎的正排索引?

秒速时时彩app下载 www.roozbehk.com

正排索引也称为“前向索引”。它是创建倒排索引的基础,具有以下字段。

(1)Localld字段(表中简称“Lid”):表示一个文档的局部编号。

(2)Wordld字段:表示文档分词后的编号,也可称为“索引词编号”。

(3)NHits字段:表示某个索引词在文档中出现的次数。

(4)HitList变长字段:表示某个索引词在文档中出现的位置,即相对于正文的偏移量。

由于一篇文章中的某些词可能出现多次,而且位置不同,而全文检索的本质要求是把这些位置标识出来,因此HitList中的每个命中都表示索引词在文档的某个位置中出现了一次,这个序列为单调递增序列?;谟纬瘫嗦氲姆椒?,变升序序列为差分序列,采用前文提到的Variable Byte Coding方法编码可以大大压缩正排索引的HitList字段。

事实上,文档编号在不同的计算过程里,分别称为局部编号和全局编号,它们在编号长度上稍有不同,为了便于理解,不区别这些区别,认为Localld和Docld完全一致,都表示一个文档的唯一编号。在正排索引中Localld采用升序序列编号(假定编号采用自增1的方式递增),这为下面的计算创造条件。进行倒排索引的转化时,由于正排索引中Lid天然的有序性,因此在正排索引转化为倒排索引的创建过程中,自然可以保证倒排索引中每个词汇对应的文档编号也是有序的.

 
本质上说,正排索引以文档编号为视角看待索引词,也就是通过文档编号去找索引词。任给一个文档编号,能够知道它包含了哪些索引词、这些索引词分别出现的次数,以及索引词出现的位置。然而全文索引是通过关键词来检索,而不是通过文档编号来检索,因此正排索引不能满足全文检索的要求。

虽然正排索引不能满足全文检索的需要,但是正排索引为创建倒排索引创造了有利条件,是计算倒排索引的不可缺少的一环。

版权?;? 转载请保留链接: http://www.roozbehk.com/seoanlifenxi/16500.html

相关文章

?
博客主人天宏seo
男,现居于江西赣州,曾经于某三甲医院担任医生,资深seo爱好者,知名蜘蛛池软件联合开发人??缃鐂eo从业者,很希望和各行业朋友交流经验。

标签

?
  • 广州美术馆预计明年完工 2019-04-19
  • 广州市“四大馆”最新进展:美术馆预计明年完工 2019-04-19
  • 广州南沙工商企业获得电力暖心服务 2019-04-19
  • 中关村软件园打造科技人文氛围 激活创新生态基因 2019-04-13
  • 中关村将打造创新发展“生态雨林” 2019-04-13
  • 光大证券研究所所长胡雅丽:万变不离其宗,首先要做好基础研究 2019-04-08
  • 健康扶贫中感受“北京温度” 2019-04-08
  • 健全自治法治德治相结合的乡村治理体系 2019-04-08
  • 多地频现共享单车“坟场”,谁为浪费负责? 2019-04-06
  • 多地频发“被法人”“被高管”现象,身份证被冒用怎么办? 2019-04-06
  • 多地销售增幅超20% 五粮液“千亿计划”迎开门红 2019-04-06
  • 扫黑除恶,这些新“知识点”来了解一下! 2019-04-05
  • 扑救森林火灾 30名扑火人员遇难 2019-04-05
  • 手到病除的“工业医生” 2019-04-05
  • 德国前驻华大使:“一带一路”将成为展示不同文明在相互尊重前提下开展合作的榜样 2019-03-30