Lucene使用结构化文档进行索引,其中每个文本行都有元数据

时间:2010-09-22 00:58:44

标签: lucene

我有一个文档结构,其中文档中的每个文本行都有一些与之关联的元数据。搜索结果必须显示该行的行和元数据。

目前,我将每个这样的行存储为Lucene文档,并将元数据存储为非索引字段之一。那就是我为每一行创建并添加Lucene Document结构。我担心的是,我最终可能会在索引中包含太多文档。

有更优雅的方法吗?

由于

2 个答案:

答案 0 :(得分:1)

“太多”了多少?众所周知,Lucene在一个索引中处理数亿条记录,所以我怀疑你应该有问题。话虽如此,没有什么可以替代自己进行测试和基准测试,看看这种方法是否适合您的需求。

答案 1 :(得分:1)

就个人而言,我会将文档索引为正常,并稍后计算出元数据/行号。

Lucene是否可以处理那么多文档是毫无疑问的,但它可能会在某种程度上降低搜索结果。因为您可以执行搜索,查找彼此非常接近的多个术语,但是当术语分成多个文档(行)时,这显然不起作用。