Solr:发布的文件数不等于maxDoc

时间:2013-02-17 11:09:11

标签: solr indexing

如果这个问题已在某个地方得到解答,我提前道歉 - 我无法找到它。

我对Solr相对较新,并且一直遵循tutorial给出的指令,使用默认的SimplePostTool从命令行索引我的数据。我目前正在测试中使用Solr 4.0。

首先,我通过查询删除索引中的所有内容。然后我将SimplePostTool指向几个目录并索引数万个文件。就我而言,目前,每个XML文件都是一个单独的文档。某些文档可能具有相同的uniqueKey ID。如果重要,XML文档大小范围为4-60kB。

SimplePostTool在完成后返回,并说26,541个文件被编入索引。然后我查看Admin collection1页面,看看Num Docs = 20,985和Max Doc = 22,921。

我已经看到other posts讨论了Num Docs和Max Doc之间的差异(我觉得我完全理解覆盖行为)。我的问题是为什么SimplePostTool报告的索引文档数与Solr Admin页面给出的Max Doc不匹配?

1 个答案:

答案 0 :(得分:5)

你有不同数量的numDocs和maxDoc:

numDocs表示索引中可搜索文档的数量(并且将大于XML文件的数量,因为某些文件包含多个文件)。 maxDoc可能更大,因为maxDoc计数包括尚未从索引中删除的逻辑删除文档。您可以根据需要反复重复发布示例XML文件,并且numDocs永远不会增加,因为新文档将不断更换旧文档。 来源:Solr official Tutorial 。这适用于旧版本。

您可以通过优化索引来删除逻辑删除的文件 - >