在数十亿条记录中查找重复记录

时间:2013-12-05 13:04:14

标签: bitmap record long-integer

我有数十亿条数据记录,每条记录都有一个名为ID的字段。 ID为长格式,如:

217775404914720768
310426682752372736
214675181568921600

我的任务是在此数据集中查找重复的ID。我试过Bitmap,似乎没用。 对于BloomFilter,我担心它可能会导致错误,因为我的数据集非常庞大。 那么任何更好的想法?

0 个答案:

没有答案