合并插入排序如何工作?

时间:2015-01-03 02:23:02

标签: c algorithm mergesort insertion-sort

我目前正在研究排序算法并找到合并插入排序。 我几乎找不到任何东西,但只有少数论文和书籍参考。 所以这个算法是由Lester Ford,Jr。和Selmer Johnson发现的。 这里部分描述了:http://www2.warwick.ac.uk/fac/sci/dcs/teaching/material/cs341/FJ.pdf

我现在的问题是了解插入部分的工作原理以及1,3,5,11的数字顺序,在解释如何插入时提到。它看起来很熟悉,但我不记得它是什么。

我现在所拥有的代码就像那样:

//pointer to array, array size, element size, compare function pointer
void sort(void *data, size_t n, size_t s, int (*fcomp)(void*, void*))
{
  if(!data) return;
  if(n < 2 || s == 0) return;

  size_t i = 0, j = 0, k = 0, l = 0, r = 0, m = 0;

  void *be = malloc((n/2)*s); //elements greater in pair comparison
  void *le = malloc((n/2 + n%2)*s);//elements lesser in pair comparison
  void *mc = malloc(n*s); //main chain

  //compare pair-wise K_1:K_2, ... , K_N:K_N-1
  for(i = 0; i < n; i+=2)
  {
    if(fcomp(voidAdd(data, s, i), voidAdd(data, s, i+1)) >= 0)
    {
      //element at i bigger than i+1 so, put it in be and i+1 in le
      memcpy(voidAdd(be, s, k++), voidAdd(data, s, i), s);
      memcpy(voidAdd(le, s, j++), voidAdd(data, s, i+1), s);
    }
    else
    {
      //element i+1 bigger than i so put it in be and i in le
      memcpy(voidAdd(be, s, k++), voidAdd(data, s, i+1), s);
      memcpy(voidAdd(le, s, j++), voidAdd(data, s, i), s);
    }
  }

  sort(be, n/2, s, fcomp); //recursivly repeat process for bigger elements
  /*
  now we have chain a_1, ..., a_n/2 and b_1, ..., b_n/2 with a_i > b_i and
  a_1 < ... a_n/2
  */

  memcpy(mc, le, s); //insert b_1 into the main-chain
  memcpy(voidAdd(mc, s, 1), be, (n/2)*s); //copy a_1, ... a_n/2 in main chain
  //now we have b_1, a_1, ..., a_n/2 as main chain

  //start insertion here
  j = n/2 + 1;
  for(i = 1; i < n/2; i++)
  {
    k = ...;//number from sequence 1, 3, 5, 11, ...
  }

  memcpy(data, mc, n*s);
  free(mc);
  free(be);
  free(le);

}

根据链接的pdf中的内容,它需要将b_3,b_2,b_5,b_4 ...插入到主链中,现在使用二进制插入,但我不确定如何准确地执行此操作他们从中获取这些数字。

1 个答案:

答案 0 :(得分:3)

本周我实际上是implemented this algorithm in C++,并且能够理解插入部分的工作原理。我真的不想重复自己,所以我会引用自己:

  

要执行最少量的比较,我们需要考虑以下关于二分搜索的观察:当元素数量为2 ^时,对排序序列执行二分搜索所需的最大比较次数是相同的。 n,当它是2 ^(n + 1)-1时。例如,在8或15个元素的排序序列中查找元素需要相同数量的比较。

基本上,在主链中插入第一个 pend 元素后,算法会采用最远的 pend 元素,需要进行2次比较要做:你需要进行2次比较才能插入少于4个元素,因此我们在论文中采用b3,因为我们可以将其插入{b1, a1, a2}。接下来,我们知道b2 < a2,因此我们可以在主链中插入a2{b1, a1}{b1, a1, b2},这意味着我们将其插入到链中最多3个元素,因此我们最多需要与它进行2次比较。接下来,我们需要一个最多可以插入3个元素的元素,因此需要将其插入最多7个元素的主链中:我们有b5 < a5,因此我们可以插入b5 {b1, a1, b2, a2, a3, b3, a4}恰好是7个元素的主链等......

要选择的下一个 pend b将始终对应于您可以在主链中插入的元素,其大小为2 ^ n - 1. Knuth设法找到给定的生成公式通过@orlp:t(k) = (2^(k+1) + (-1)^k)/3。生成的数字恰好对应Jacobsthal numbers;该系列增长如此之快以至于你可以简单地缓存它们,第66个Jacobsthal数字甚至不适合64位整数。插入此类元素bk后,您可以按相反顺序插入bk小于当前Jacobsthal数的所有k元素。如果您在排序结尾处留下了 pend 元素,但它们都没有对应于Jacobsthal数字的indice,只需将它们插入主链;插入的顺序无关紧要,因为无论插入顺序如何,插入其中任何一个所需的比较数应该相同。