我有一个包含两列的大型.csv文件
A)姓名B)电子邮件
我想删除重复的电子邮件。它需要删除整行。
例如,如果我的.csv文件包含以下内容
Ted abc@efg.com
John abc@efg.com
Dave abc@efg.com
它将删除两个底线并仅包含
Ted abc@efg.com
非常感谢任何帮助
谢谢!
答案 0 :(得分:0)
改编自this回答:
awk '{ if (a[$2]++ == 0) print $0; }' filename.csv
答案 1 :(得分:0)
使用awk
,您可以根据字符串所在的列检查重复值:
awk '!x[$2]++' FS="," file.csv > deduped.csv
在上面的示例中,awk检查用,
分隔的csv文件的第2列