我正在研究在一个非常大的文件中有效排序值。起初,似乎拆分文件,单独排序,然后对它们进行合并运行排序都比在一个大文件上运行排序更有效。 sort across multiple files in linux
然后阅读这篇文章: http://vkundeti.blogspot.com/2008/03/tech-algorithmic-details-of-unix-sort.html
似乎sort命令已经在不同的抽象级别下使用合并排序算法。那么拆分真的更有效吗?还没有进行任何广泛的测试,只是想知道是否有人知道。
sort命令是多线程的吗?在单个大文件上运行排序时是否存在内存边界,而不是将多个文件排序为单独的进程?我知道,排序通常使用内存进行排序,但如果内存使用率高于某个阈值,则使用磁盘上的临时文件。