Question

其他以前提出的问题没有回答我的问题！

我有一系列大文件（200 G），每个文件都经过排序并包含重复项，如下所示：

 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100| b.ac
 50.21.180.100| b.ac
 50.21.180.100|b.ac
 50.21.180.100|b.ac
 50.21.180.100|b.ac
 50.21.180.100| c.ac
 50.21.180.100| c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100| d.ac

预期产出：

50.21.180.100|a.ac
50.21.180.100|b.ac
50.21.180.100|c.ac
50.21.180.100|d.ac

是否有任何机构对删除这些副本的最佳方式（时间和记忆）有任何建议？是用Linux bash还是Python或其他语言？

Answer 1

首先删除空格，然后运行uniq：

cat infile.txt | tr -d " " | uniq > outfile.txt

从已排序的非常大的文件列表中删除重复项的最佳方法（每个200G）？

1 个答案: