内部排序,使用两个堆的锦标赛排序算法解释

时间:2012-09-24 21:45:51

标签: database algorithm sorting heap memorystream

我正在尝试理解以下tournament sort(替换选择),它是一种在主存储器中进行排序的排序算法。

任何解释这是如何工作的?

Keep two heaps in memory, H1 and H2
read B-2 pages of records, inserting into H1;  #B is buffer size

while (records left) {
  m = H1.removemin();  
  put m in output buffer;
  if (H1 NOT empty)
       read in a new record r (use 1 buffer for input pages);
       if (r < m)  
           H2.insert(r);
       else        
           H1.insert(r);
 else
      H1 = H2;  
      H2.reset();  
      start new output run; 
}
H1.output();  
start new run;  
H2.output();

1 个答案:

答案 0 :(得分:1)

替换选择技术特别令人感兴趣,因为所产生的运行的预期长度是可用主存储器大小的两倍。该估计首先由E.H.提出。朋友,后来由E.F. Moore描述。在现实世界的应用中,输入数据通常不是随机的(即,它通常表现出一定程度的预先分类)。在这种情况下,替换选择产生的运行往往包含超过2m的记录。实际上,对于最佳情况,即当输入数据已经排序时,替换选择仅产生一次运行。

给定一组元组记录,status,其中record是从未排序的输入读取的记录,status是一个布尔标志,指示记录是活动还是非活动。活动记录是当前运行的候选记录,而非活动记录则保存用于下次运行。算法背后的想法如下:假设大小为m的主存储器,我们从未排序的输入数据中读取m个记录,将其状态设置为活动状态。然后,选择具有最小键和活动状态的元组并将其移动到输出文件。当元组移动到输出(选择)时,其位置被输入数据中的另一个元组占用(替换)。如果最近读取的记录小于刚刚写入的记录,则其状态将设置为非活动状态,这意味着它将被写入下一次运行。一旦所有元组都处于非活动状态,将关闭当前运行文件,创建一个新的输出文件,并将所有元组的状态重置为活动状态。

您可以阅读有关替换选择的更多信息here