检查csv文件中的重复行 - java

时间:2014-07-20 10:57:38

标签: java csv duplicates

我随机生成了700万个ID,由于体积很大,我将其保存到7个不同的csv文件中。现在我想拥有7个带有100万个ID的csv文件。我想检查所有7个csv文件中的重复ID。有什么办法可以在java中完成吗?

1 个答案:

答案 0 :(得分:1)

使用Java执行此操作的唯一方法是将所有700万个ID加载到内存中。您可以将它们放入Set中,并为从文件加载的每个新ID,检查它是否已存在于Set中。我假设您必须编写没有重复项的输出文件。

我不会用Java做这件事。一个简单的Unix / Linus shell脚本可以解决这个问题(cat file1 file2 file3 file4 file5 file5 file6 file7 | sort | uniq将为您提供所有唯一ID,然后如果必须,您可以将它们拆分为7个文件。