我正在学习“Lucene in Action”。据说,为了搜索文件的内容,您需要索引文件。我对索引文件不是很清楚。
答案 0 :(得分:0)
Q> 索引1 GB文档(如doc,xls,pdb)需要多少文件空间?
A> 您的问题太模糊了。文档和电子表格几乎可以从几十甚至几百甚至几百兆不等。它还取决于您将要使用的分析仪和许多其他因素(例如,仅索引或索引和存储的字段等)。您可以使用this spreadsheet进行粗略估算,并为合并添加一些额外空间。
Q> 索引这些文件需要多长时间?
A> 同样,它取决于有多少内容。一般来说,indexing is fast。在给定的链接上,它的速度高达95.8 GB /小时,但我认为从doc / xsl转换会增加一些成本(这与Lucene btw无关)。
Q> 我们是否需要每天更新索引?
A> 由您决定。如果您不更新索引,您将获得相同的搜索结果。新的/更新的内容没有神奇的方法可以在不更新的情况下进入索引。