Question

从超过500万行和1列的CSV文件中删除重复条目的最快方法是什么？我尝试了一些免费软件程序，但它们不断崩溃，并且excel仅支持1M行。

Answer 1

这仅是一个高级答案（无代码），因为我们没有文件的详细信息或问题中的任何其他内容（甚至不使用什么语言）。

排序。
迭代，第二遍数据。
将好（唯一）行复制到新文件。
完成后，用副本替换原始文件。

由于对数据进行了排序，因此您很容易知道哪些行是“好”行，因此只需要保留上一行的值即可进行比较。

Answer 2

假设您在Mac或Linux机器（或Unix-y机器）上运行，此bash命令将达到目的：

sort < my_big_file.csv | uniq > deduped.csv

Answer 3

您可以在PowerShell中使用

$noDupes = @(Get-Content -Path 'C:\Temp\original.csv') | Sort-Object -Unique 
$noDupes | Out-File -FilePath 'C:\Temp\deduped.csv' -Force