我有来自两个不同数据库的两个表。我必须检索它们并删除两个表中存在的记录,并将剩余的记录存储到另一个表中。
该表都有一个公共列,以确定它是否重复。
目前,我们正在从两个表中检索记录,并使用java.util.set删除重复项,然后我们将插入记录。如果记录大小很小,这很好,但我想为大量记录找到更优化的解决方案。
我想从两个表中对记录进行排序并进行重复数据删除。但这不适用于大量记录,直到我将它们全部加载到内存中并进行比较。如果记录很大,那是不可能的。如果我加载1000s,边缘情况下可能会有一些记录松动。
这需要Duke de-dupe吗?它会起作用吗?
还有其他想法吗?