Apache Solr - 索引数据库表似乎可以检索比表中包含的更多的记录

时间:2012-10-14 03:28:13

标签: apache solr import indexing

我对Solr很新,所以如果我说的是没有意义的话,请告诉我。

我最近设置了Solr 4.0测试版,它运行良好。它是用DIH设置的,用于从MySQL DB中读取视图。该视图包含大约2000万行和16列。许多列都有很多NULL值。数据库的性能非常好 - 当我手动运行查询时,我会在视图中获得亚秒级查询时间。

我在视图中指出了Solr,它开始了索引过程。四个小时后我回来检查它,发现它不仅仍在编制索引,而且据报道它已经获得了2亿多个。

我是否误解了Solr的工作原理?我假设它将获取与DB中相同数量的行 - 大约是2000万。或者,它实际上是将每个字段计为提取的项目吗?或者,更糟糕的是,它是否处于某种循环中?

我通过将查询限制为100,000条记录,使用来自同一视图的一小部分数据进行了一些先前的测试。完成后,据报道已经获得了100,000个。我也没有在日志中收到任何警告/错误。

有关正在发生的事情的任何想法?

1 个答案:

答案 0 :(得分:0)

该数字表示db中的行。你可以发布你的db-data-config.xml文件吗?我想你应该再次检查你的SQL。