文档大小对Lucene的影响

时间:2012-01-24 19:13:22

标签: java apache search lucene

我刚刚开始阅读Lucene。在提供的一个示例中,在将文档添加到索引之前,正在将整个文件添加到文档中。

然而,文档表明这种索引技术不会提供良好的性能。建议的方法是将文件的每一行存储在单独的文档中。

我很想知道这有助于提高索引性能。

此外,我想验证我的理解,即要将每行文件添加为文档字段,我们必须首先对该行进行标记以获取标记,然后为其创建一个字段。

1 个答案:

答案 0 :(得分:1)

即使您不考虑性能,这两种方法也不会产生相同的结果。如果你有一个文件的第一行是“狐狸”而第二行是“狗”,如果你搜索“狐狸”和“狗”,第二种方法就没有结果。

关于你的第二个问题,不,你不需要在创建文档和字段之前执行任何标记化。当您调用IndexWriter #add(Document)。

时,将执行标记化

如果您开始使用Lucene,我强烈建议您阅读the demo code。这将向您展示如何创建然后搜索Lucene索引。

如果索引速度对您正在开发的应用程序至关重要,那么Lucene wiki就会有很好的建议。