我随机生成了700万个ID,由于体积很大,我将其保存到7个不同的csv文件中。现在我想拥有7个带有100万个ID的csv文件。我想检查所有7个csv文件中的重复ID。有什么办法可以在java中完成吗?
答案 0 :(得分:1)
使用Java执行此操作的唯一方法是将所有700万个ID加载到内存中。您可以将它们放入Set中,并为从文件加载的每个新ID,检查它是否已存在于Set中。我假设您必须编写没有重复项的输出文件。
我不会用Java做这件事。一个简单的Unix / Linus shell脚本可以解决这个问题(cat file1 file2 file3 file4 file5 file5 file6 file7 | sort | uniq
将为您提供所有唯一ID,然后如果必须,您可以将它们拆分为7个文件。