Question

我有一个包含两列的大型.csv文件

A）姓名B）电子邮件

我想删除重复的电子邮件。它需要删除整行。

例如，如果我的.csv文件包含以下内容

Ted     abc@efg.com
John     abc@efg.com
Dave     abc@efg.com

它将删除两个底线并仅包含

Ted     abc@efg.com

非常感谢任何帮助

谢谢！

Answer 1

改编自this回答：

awk '{ if (a[$2]++ == 0) print $0; }' filename.csv

Answer 2

使用awk，您可以根据字符串所在的列检查重复值：

awk '!x[$2]++' FS="," file.csv > deduped.csv

在上面的示例中，awk检查用,分隔的csv文件的第2列