从超过500万行和1列的CSV文件中删除重复条目的最快方法是什么?我尝试了一些免费软件程序,但它们不断崩溃,并且excel仅支持1M行。
答案 0 :(得分:1)
这仅是一个高级答案(无代码),因为我们没有文件的详细信息或问题中的任何其他内容(甚至不使用什么语言)。
排序。
迭代,第二遍数据。
将好(唯一)行复制到新文件。
完成后,用副本替换原始文件。
由于对数据进行了排序,因此您很容易知道哪些行是“好”行,因此只需要保留上一行的值即可进行比较。
答案 1 :(得分:1)
假设您在Mac或Linux机器(或Unix-y机器)上运行,此bash命令将达到目的:
sort < my_big_file.csv | uniq > deduped.csv
答案 2 :(得分:0)
您可以在PowerShell中使用
$noDupes = @(Get-Content -Path 'C:\Temp\original.csv') | Sort-Object -Unique
$noDupes | Out-File -FilePath 'C:\Temp\deduped.csv' -Force