我一直致力于Inverted indexing,索引文档集合,存储每个术语的信息,并将其引用存储在发布文件中(文档ID,位置等)。
目前我将它存储为.txt文件格式,需要对每个与该.txt文件有关的查询进行字符串匹配,这需要更多的时间和更复杂的事情。
现在我想将这些信息存储在链接列表样式数据结构等文件中。对于这种类型的场景,这是可能的....(我也使用PHP语言进行索引)。
任何帮助将不胜感激,谢谢。
答案 0 :(得分:1)
反向索引的要点是允许极其快速地访问任何给定术语的出现列表(过账列表)。如果您想使用简单易用的数据结构来实现它,那么您可能做的最好的就是
ArrayList
或C ++中的std::vector
)。不要使用链表,因为这涉及浪费指针的大量空间更合适(更复杂)的实施将考虑到:
这些技巧的详细描述可在经典书籍Managing Gigabytes中找到。