文件格式需要反向索引

时间:2012-04-10 10:41:57

标签: file indexing format inverted-index

我一直致力于Inverted indexing,索引文档集合,存储每个术语的信息,并将其引用存储在发布文件中(文档ID,位置等)。

目前我将它存储为.txt文件格式,需要对每个与该.txt文件有关的查询进行字符串匹配,这需要更多的时间和更复杂的事情。

现在我想将这些信息存储在链接列表样式数据结构等文件中。对于这种类型的场景,这是可能的....(我也使用PHP语言进行索引)。

任何帮助将不胜感激,谢谢。

1 个答案:

答案 0 :(得分:1)

反向索引的要点是允许极其快速地访问任何给定术语的出现列表(过账列表)。如果您想使用简单易用的数据结构来实现它,那么您可能做的最好的就是

  • 使用哈希来存储从术语到帖子列表的映射
  • 将每个帖子列表存储为连续的排序整数块(例如Java中的ArrayList或C ++中的std::vector)。不要使用链表,因为这涉及浪费指针的大量空间

更合适(更复杂)的实施将考虑到:

  • 该帖子列表可以非常大,所以您必须将其分解为多个块,每个块存储为一个连续块
  • 该帖子列表可以而且应该被压缩

这些技巧的详细描述可在经典书籍Managing Gigabytes中找到。