如何使用java重复数据删除和合并来自不同来源的数据库记录?

时间:2016-04-08 00:43:16

标签: java lucene spring-batch

我有来自两个不同数据库的两个表。我必须检索它们并删除两个表中存在的记录,并将剩余的记录存储到另一个表中。

该表都有一个公共列,以确定它是否重复。

目前,我们正在从两个表中检索记录,并使用java.util.set删除重复项,然后我们将插入记录。如果记录大小很小,这很好,但我想为大量记录找到更优化的解决方案。

我想从两个表中对记录进行排序并进行重复数据删除。但这不适用于大量记录,直到我将它们全部加载到内存中并进行比较。如果记录很大,那是不可能的。如果我加载1000s,边缘情况下可能会有一些记录松动。

这需要Duke de-dupe吗?它会起作用吗?

还有其他想法吗?

0 个答案:

没有答案