我有一个问题,在我的lucene索引文件中,一个文档可以有大文本。现在,当我搜索其中一个巨大的文本文档时,lucene / solr不会过滤任何结果,即使文档文本中存在搜索词。我认为可能是文档文本中的大量字符的原因?如果是,我们怎么能告诉solr / lucene在搜索过程中要分析多少字符,请解释
我正在使用Solr 1.4.1可以任何
由于 阿桑
答案 0 :(得分:2)
Lucene可以毫无困难地处理大量文档。文档大小本身似乎不太可能出现问题。使用Luke之类的工具检查索引并查看与这些大型文档相关的条款。
答案 1 :(得分:1)
另外,您是否更改了solrconfig.xml中的maxFieldLength设置?我正在测试索引圣经,25 MB的数据,并且maxFieldLength为10,000,这是默认值,只有前10,000个令牌被分析,这导致我的文档大约有2000个独特的术语。
如果您直接使用Lucene,那么maxFieldLength有几个设置,您可能拥有“无限制”,因此可以获得所有内容。检查JavaDocs以了解如何设置maxFieldLength。