从CSV删除具有500万行的重复项

时间:2018-07-21 02:42:04

标签: csv

从超过500万行和1列的CSV文件中删除重复条目的最快方法是什么?我尝试了一些免费软件程序,但它们不断崩溃,并且excel仅支持1M行。

3 个答案:

答案 0 :(得分:1)

这仅是一个高级答案(无代码),因为我们没有文件的详细信息或问题中的任何其他内容(甚至不使用什么语言)。

排序
迭代,第二遍数据。
好(唯一)行复制到新文件
完成后,用副本替换原始文件。

由于对数据进行了排序,因此您很容易知道哪些行是“好”行,因此只需要保留上一行的值即可进行比较。

答案 1 :(得分:1)

假设您在Mac或Linux机器(或Unix-y机器)上运行,此bash命令将达到目的:

sort < my_big_file.csv | uniq > deduped.csv

答案 2 :(得分:0)

您可以在PowerShell中使用

$noDupes = @(Get-Content -Path 'C:\Temp\original.csv') | Sort-Object -Unique 
$noDupes | Out-File -FilePath 'C:\Temp\deduped.csv' -Force