我需要对一个非常庞大的文件进行排序,数百,Gb。幸运的是,我可以访问Linux MPI集群。有人知道一个好但最重要的工作排序程序,可以使用MPI在分布式环境中运行。 实际上我想计算该文件中的唯一行,所以如果有人知道一个程序可以做得更好。否则我可以在以后自己弄清楚如何做。
答案 0 :(得分:1)
因为我没有答案,但我会分享我的结果。
我从ordinal.com(2004年sortbenchmark.org年度排序算法竞赛中获胜者)下载了nsort
计划。虽然不是以集群方式,但它的排序速度惊人。我不记得它是什么了,但我使用nsort
获得了巨大的时间改进。我说的是比默认的Linux排序快几十倍(可能大约50左右)。
还有两件事需要注意。