我只是想构建一个小型索引文件系统(超过3000个文本文件,超过5 GB)。我已经搜索过Google或其他内容的结果,但没有得到我想要的。所有结果都是相关的到Lucene,但是我只想在没有任何第三个库的情况下这样做,你会给我一些建议或一些例子吗?
答案 0 :(得分:0)
一个非常基本的解决方案可能是使用倒排索引。在这里,您可以阅读要编制索引的所有文档,并将在地图中找到的单词存储在其中,其值为包含这些单词的文档列表。
doc 1;
这是一个示例文档
doc 2;
这个文件是第二个
你的地图会有;
this -> doc1, doc2
is -> doc1, doc2
an -> doc1
example -> doc1
document -> doc1, doc2
number -> doc2
two -> doc2