应用错误收集

这里需要一些外部排序技巧。我们的想法是创建较小的排序文件，然后逐个排序并保存在新文件中。这是一个快速摘要。

将20GB文件拆分为100-1000个文件（取决于系统的性能）
使用传统的CSV排序方法
创建另一个文件，最后是排序的输出。我们称之为RESULT。
逐行读取第一个文件和RESULT。迭代地将行添加到另一个文件（例如，TEMP）。第一次迭代后，RESULT不会为空。假设当前的块文件包含[1,3,5]，RESULT包含[2,4,6]，比较它们的最低未读元素。这里，（1,2）。将“1”写入TEMP。在下一次迭代中，您必须比较（3,2）并将'2'写入TEMP。继续。基本思想是常规合并排序的核心。重命名TEMP作为结果并清除TEMP。
对每个块和RESULT重复此操作。

enter image description here

当你不断迭代块并且一直保持排序时，RESULT会慢慢增长。迭代结束后，此文件是最终排序的CSV。

您可以尝试多种算法变体以满足您的需求。查看https://en.wikipedia.org/wiki/External_sorting了解更多详情。

因此，我能够在一台8GB的计算机上在2-3小时内对40GB文件进行排序，该计算机还运行了其他几个进程。