如何排序100GB的字符串

时间:2010-04-02 11:49:24

标签: java sorting

鉴于120GB的硬盘驱动器,其中100个填充了长度为256和2 GB的字符串,如何最有效地对Java中的字符串进行排序? 需要多长时间?

7 个答案:

答案 0 :(得分:22)

A1。您可能希望实现某种形式的合并排序

A2:比你的机器上有256GB RAM的时间要长。

编辑:受到批评的刺激,我引用了维基百科关于合并排序的文章:

  

合并排序本质上是顺序的,使用慢速磁带驱动器作为输入和输出设备来运行它是切实可行的。它非常需要   内存很少,所需的内存不依赖于数量   数据元素。

     

出于同样的原因,它对于磁盘上的数据排序也很有用   太大而不能完全适合主存储器。在磁带驱动器上可以   向后和向前运行,合并传递可以在两者中运行   方向,避免倒带时间。

答案 1 :(得分:18)

我是这样做的:

阶段1是将100Gb拆分为50个2Gb分区,将50个分区中的每个分区读入内存,使用快速排序进行排序,然后写出。您希望排序的分区位于光盘的顶端。

第2阶段是合并50个已排序的分区。这是棘手的一点,因为光盘上没有足够的空间来存储分区和最终排序的输出。所以...

  1. 进行50路合并以填充光盘底端的第一个20Gb。

  2. 将50个分区中的剩余数据滑动到顶部,使另一个20Gb的可用空间与第一个20Gb的末尾相邻。

  3. 重复步骤1.和2.直到完成。

  4. 这会占用大量的光盘IO,但您可以利用2Gb的内存在复制和合并步骤中进行缓冲,以通过最小化光盘搜索次数来获取数据吞吐量,并进行大量数据传输。

    编辑 - @meriton提出了一种减少复制的聪明方法。他没有滑动,而是建议将分区按顺序排序,并在合并阶段向后读取。这将允许算法通过简单地截断分区文件来释放分区使用的磁盘空间(阶段2,步骤2)。

    潜在的缺点是磁盘碎片增加,并且由于向后读取分区而导致性能下降。 (在后一点上,在Linux / UNIX上向后读取文件需要更多的系统调用,并且FS实现可能无法反向执行“预读”。)

    最后,我想指出,这个算法(和其他人)花费的时间的理论预测在很大程度上是猜测。这些算法在真正的JVM +真实操作系统+真实光盘上的行为对于“回到包络”计算来说太复杂了,无法给出可靠的答案。适当的处理需要实际实施,调整和基准测试。

答案 2 :(得分:17)

我基本上在重复Krystian's answer,但是要详细说明:

是的,您需要或多或少地执行此操作,因为您可用的RAM很少。但是天真的就地分类在这里只会因为移动字符串的成本而成为灾难。

不是实际移动字符串,而是跟踪哪些字符串应与其他字符串交换并实际移动它们,最后一次移动到最终位置。也就是说,如果您有1000个字符串,请创建一个1000个整数的数组。 array [i]是字符串i应该结束的位置。如果最后是array [17] == 133,则意味着字符串17应该在字符串133的最后位置.array [i] == i表示所有i的开始。那么,交换字符串只需要交换两个整数。

然后,像quicksort这样的任何就地算法效果都很好。

运行时间肯定取决于琴弦的最终移动。假设每一个都移动,你就会在合理大小的写入中移动大约100GB的数据。我可能会认为驱动器/控制器/操作系统可以为您移动大约100MB /秒。那么,1000秒左右? 20分钟?

但是它适合记忆吗?你有100GB的字符串,每个字符串是256个字节。多少串? 100 * 2 ^ 30/2 ^ 8,或约419M字符串。您需要419M整数,每个是4个字节,或大约1.7GB。瞧,适合你的2GB。

答案 3 :(得分:6)

听起来像是一个需要External sorting方法的任务。 “计算机程序设计艺术”第3卷包含一个对外部排序方法进行广泛讨论的部分。

答案 4 :(得分:5)

我认为你应该使用BogoSort。您可能需要稍微修改算法以允许就地排序,但这不应该太难。 :)

答案 5 :(得分:1)

你应该使用trie(又名:前缀树):构建一个树状结构,通过比较它们的前缀,你可以通过有序的方式轻松地遍历你的字符串。实际上,您不需要将其存储在内存中。您可以将trie构建为文件系统上的目录树(显然,不是数据来自的目录树)。

答案 6 :(得分:0)

AFAIK,merge-sort需要尽可能多的可用空间。这可能是任何避免随机访问的外部排序的要求,但我不确定这一点。