我了解外部排序的作用,它的用途;但是我在脑海中有一个关于合并极端情况的问题。
external sorting第一个答案解释了外部排序合并的工作原理。但是如果:
假设我们有10个单元的内存大小,我们想要排序50个单元文件
首先我们将文件切成5次运行(每次运行10个单位)并对它们进行单独排序
第二,我们必须将它们与4向合并
合并和10/4 = 2.5~2;我们从每次运行中获取2个单位(块),将它们放入内存并开始合并;
然后实际的问题是:如果(假设)第三轮的第二和第三块有
怎么办?比其他运行的第一块更小的元素?合并过程是否会成功?
如果我对自己的理解有误,任何解释都会有所帮助。
答案 0 :(得分:3)
嗯,在任何文件中都有更小/更大的元素是没有问题的。以下是外部排序过程的示例:
您的初始数据:
data = [2, 5, 3, 7, 1, 6, 4, 8, 9]
考虑到你只有3个内存单元,你有以下分片和排序结果:
d1 = [2, 5, 3] -> sorting -> d1 = [2, 3, 5]
d2 = [7, 1, 6] -> sorting -> d2 = [1, 6, 7]
d3 = [4, 8, 9] -> sorting -> d3 = [4, 8, 9]
由于你有三个可用的单位,你可以同时读取三个分片,所以,你有:
d = [], d1 = [2, 3, 5], d2 = [1, 6, 7], d3 = [4, 8, 9] -> min(d1, d2, d3) = 1
d = [1], d1 = [2, 3, 5], d2 = [6, 7], d3 = [4, 8, 9] -> min(d1, d2, d3) = 2
d = [1, 2], d1 = [3, 5], d2 = [6, 7], d3 = [4, 8, 9] -> min(d1, d2, d3) = 3
d = [1, 2, 3], d1 = [5], d2 = [6, 7], d3 = [4, 8, 9] -> min(d1, d2, d3) = 4
d = [1, 2, 3, 4], d1 = [5], d2 = [6, 7], d3 = [8, 9] -> min(d1, d2, d3) = 5
d = [1, 2, 3, 4, 5], d1 = [], d2 = [6, 7], d3 = [8, 9] -> min(d1, d2, d3) = 6
d = [1, 2, 3, 4, 5, 6], d1 = [], d2 = [7], d3 = [8, 9] -> min(d1, d2, d3) = 7
d = [1, 2, 3, 4, 5, 6, 7], d1 = [], d2 = [], d3 = [8, 9] -> min(d1, d2, d3) = 8
d = [1, 2, 3, 4, 5, 6, 7, 8], d1 = [], d2 = [], d3 = [9] -> min(d1, d2, d3) = 9
d = [1, 2, 3, 4, 5, 6, 7, 8, 9], d1 = [], d2 = [], d3 = [] -> []
您可能关注的是当您有足够的限制以允许您不从每个文件中读取至少一个元素时,或者即使决定只是从给定文件中读取更多元素,留下另一个文件到请阅读。
这与上面的过程相同,唯一的区别是,在读完两个文件,并在它们之间合并数据之后,你必须从第三个文件中读取和从最后生成的文件,即文件1和2的合并。
由于第三个文件和最后生成的文件都肯定排序,您可以顺序扫描两个文件中的数据,将条目合并为唯一结果。