倒排索引——词典+倒排链表

在拥有大规模索引数据的搜索引擎中,倒排索引被证明是一种非常高效地数据结构
事实上,可以简单的理解为

词典

由大量的词项组成,主要用来记录整个文档集合中出现过的此项和对应的倒排链表指针。

倒排链表

记录了该此项在不同文档中的命中信息、位置信息或者与计算分数等信息。

在实际应用中,词典文件比起倒排文件来说相对较小。所以一般研究倒排链表压缩算法。每个从磁盘读取的数据块包含一定数量的倒排链表数据段。每个数据段作为压缩算法处理的基本单位,包含着一串被压缩的整数序列。每个数据段包含一组docid和对应的一组freq