C:仅对大文件进行合并排序的段错误

时间:2011-04-21 17:09:06

标签: c sorting memory segmentation-fault mergesort

以下代码对一个单词数组进行排序,对小数组进行排序,对大数组进行分类(> 400000个单词,但我没有找到限制)。一个程序调用它来传递一个单词数组(从文件中读取)进行排序并测试它的成功:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <math.h>

#include "csort.h"
#include "sort.h"

// array points to array of pointers to strings, count is number of entries in array

void sortC(char** array, unsigned int count){
  array = merge_sort(array, count);
  // testing:
  /*for (int i = 0; i < count; i++){
    printf("%s ", array[i]);
    }*/
}

char** merge_sort(char** array, int count){
  if (count <= 1) return array;
  else {
    int lcount = 0;
    int rcount = 0;
    int middle = count/2;
    lcount = middle;
    char* left[lcount];
    subArray(array, left, 0, middle);
    rcount = count-middle;
    char* right[rcount];
    subArray(array, right, middle, count);
    return merge(merge_sort(left, lcount), merge_sort(right, rcount), array, 0, lcount, rcount);
  }
}

void subArray(char** array, char** subarray, int start, int end){
  int ai; // index in original array
  int si; // index in subarray
  for (ai = start, si = 0; ai < end; ai++, si++){
    subarray[si] = array[ai];
  }
}

char** merge(char** left, char** right, char** output, int oi, int lcount, int rcount){
  if (lcount > 0 && rcount > 0){
    int lmin = findMinimum(left, lcount);
    int rmin = findMinimum(right, rcount);
    if (strcmp(left[lmin], right[rmin]) < 0){
      output[oi] = left[lmin];
      removeFromArray(left, lmin, lcount);
      lcount--;
    }
    else {
      output[oi] = right[rmin];
      removeFromArray(right, rmin, rcount);
      rcount--;
    }
  }
  else if (lcount == 0) {
    if (rcount == 1) {
      output[oi] = right[0];
      return output;
    } else {
      int rmin = findMinimum(right, rcount);
      output[oi] = right[rmin];
      removeFromArray(right, rmin, rcount);
      rcount--;
    }
  }
  else if (rcount == 0) {
    if (lcount == 1) {
      output[oi] = left[0];
      return output;
    } else {
      int lmin = findMinimum(left, lcount);
      output[oi] = left[lmin];
      removeFromArray(left, lmin, lcount);
      lcount--;
    }
  }
  return merge(left, right, output, ++oi, lcount, rcount);
}

int findMinimum(char** array, int count){
  char* minvalue = array[0];
  char* currentvalue = minvalue;
  int minindex = 0;
  for (int i = 1; i < count; i++){
    currentvalue = array[i];
    if (strcmp(currentvalue, minvalue) < 0){
      minvalue = currentvalue;
      minindex = i;
    }
  }
  return minindex;
}

void removeFromArray(char** array, int index, int count){
  // removes specified index from an array
  for (int i = index; i < count; i++){
    if (i+1 == count){
      array[i] = 0; // this entry will be gone when count decrements
    } else {
      array[i] = array[i+1];
    }
  }
}

2 个答案:

答案 0 :(得分:2)

如果您的代码没有错误,那么问题可能就是您存储数据的方式。您是否使用malloc()分配数组来存储数据,或者您是否声明足够大的数组

对于大型数据集,您必须使用malloc(),这将在HEAP而不是堆栈上分配空间。 堆栈空间有限。这可以解释为什么对于较小的数据,您的程序可以工作,而对于较大的数据集,它会崩溃。

另一个非常重要的一点是你正在使用递归:merge()调用merge()。递归调用太多可能导致堆栈溢出(segfault)。

答案 1 :(得分:0)

看起来像堆栈溢出,如果每次调用中的项目都会分配数千个自动数组,然后再递归。

这些行具体来说:

char* left[lcount];

char* right[rcount];

对于评论中的值,其中count == 7157,就堆栈空间而言,这将是非常昂贵的。

考虑使用malloc()作为这些,或者找出一种表示子数组而不需要新内存的方法。