如何在两个SOLR集合之间找到delta

时间:2015-09-23 12:05:22

标签: solr lucene solrcloud lucidworks

我们正在使用Lucid的作品Solr 4.6版。

我们的源系统基本上将数据存储到两个目标系统中(一个通过实时,另一个通过批处理模式)。数据通过实时路径被摄入Solr。

我们需要定期将Solr中摄取的数据与摄取到批处理系统中的数据同步。

我们目前正在尝试评估的设计是将批处理系统中的数据导入另一个Solr集合,但实际上并不确定如何同步两个集合(即具有实时数据的集合,其次是批量导入)。

我通读了数据导入处理程序,但这将覆盖Solr中的现有数据。有没有什么方法可以确定两个集合之间的差异并仅摄取它。

1 个答案:

答案 0 :(得分:0)

没有好办法;你可以做几件事:

  1. 当数据进入实时系统时,会有一个导入时间戳。然后进行范围查询以获取新内容。我认为新版本的Solr已经有了这个领域。
  2. 记录进入第一个Solr的文档的ID,然后将这些文档编入索引。
  3. 其他集合的单独队列