删除.csv文件中的重复内容?

时间:2014-10-14 21:48:33

标签: linux csv

我有一个包含两列的大型.csv文件

A)姓名B)电子邮件

我想删除重复的电子邮件。它需要删除整行。

例如,如果我的.csv文件包含以下内容

Ted     abc@efg.com
John     abc@efg.com
Dave     abc@efg.com

它将删除两个底线并仅包含

Ted     abc@efg.com

非常感谢任何帮助

谢谢!

2 个答案:

答案 0 :(得分:0)

改编自this回答:

awk '{ if (a[$2]++ == 0) print $0; }' filename.csv

答案 1 :(得分:0)

使用awk,您可以根据字符串所在的列检查重复值:

awk '!x[$2]++' FS="," file.csv > deduped.csv

在上面的示例中,awk检查用,分隔的csv文件的第2列