我有一个文档结构,其中文档中的每个文本行都有一些与之关联的元数据。搜索结果必须显示该行的行和元数据。
目前,我将每个这样的行存储为Lucene文档,并将元数据存储为非索引字段之一。那就是我为每一行创建并添加Lucene Document结构。我担心的是,我最终可能会在索引中包含太多文档。
有更优雅的方法吗?
由于
答案 0 :(得分:1)
“太多”了多少?众所周知,Lucene在一个索引中处理数亿条记录,所以我怀疑你应该有问题。话虽如此,没有什么可以替代自己进行测试和基准测试,看看这种方法是否适合您的需求。
答案 1 :(得分:1)
就个人而言,我会将文档索引为正常,并稍后计算出元数据/行号。
Lucene是否可以处理那么多文档是毫无疑问的,但它可能会在某种程度上降低搜索结果。因为您可以执行搜索,查找彼此非常接近的多个术语,但是当术语分成多个文档(行)时,这显然不起作用。