thrust :: sort_by_key比qsort慢得多

时间:2017-04-13 03:27:54

标签: sorting cuda qsort

我发现thrust :: sort_by_key比qsort慢得多,它让我觉得并行排序的性能很低,为什么呢?

数据集为100。 qsort时间是0.000026(s)。 GPU_sort时间为0.000912(s)。

数据集为1000。 qsort时间是0.000205。 GPU_sort时间为0.003177。

数据集为10000。 qsort时间是0.001598。 GPU_sort时间为0.031547。

数据集为100000。 qsort时间是0.018564。 GPU_sort时间为0.31230。

数据集为1000000。 qsort时间是0.219892。 GPU_sort时间是3.138608。

数据集为10000000。 qsort时间是2.581469。 GPU_sort时间为85.456543。

这是我的代码:

struct HashValue{
int id_;
float proj_;
 };

int HashValueQsortComp(const void* e1, const void* e2)                      

{

int ret = 0;

HashValue* value1 = (HashValue *) e1;

HashValue* value2 = (HashValue *) e2;

if (value1->proj_ < value2->proj_) {
    ret = -1;
} else if (value1->proj_ > value2->proj_) {
    ret = 1;
} else {
    if (value1->id_ < value2->id_) ret = -1;
    else if (value1->id_ > value2->id_) ret = 1;
}
return ret;
}


const int N = 10;

void sort_test()
{

clock_t start_time = (clock_t)-1.0;
clock_t end_Time = (clock_t)-1.0;

HashValue *hashValue = new HashValue[N];
srand((unsigned)time(NULL));

for(int i=0; i < N; i++)
{
    hashValue[i].id_ = i;
    hashValue[i].proj_ = rand()/(float)(RAND_MAX/1000);
}

start_time = clock();
qsort(hashValue, N, sizeof(HashValue), HashValueQsortComp);
end_Time = clock();
printf("The qsort time is %.6f\n", ((float)end_Time - start_time)/CLOCKS_PER_SEC);

float *keys = new float[N];
int *values = new int[N];
for(int i=0; i<N; i++)
{
    keys[i] = hashValue[i].proj_;
    values[i] = hashValue[i].id_;
}
start_time = clock();
thrust::sort_by_key(keys, keys+N, values);
end_Time = clock();
printf("The GPU_sort time is %.6f\n", ((float)end_Time - start_time)/CLOCKS_PER_SEC);

delete[] hashValue;
hashValue = NULL;

delete[] keys;
keys = NULL;

delete[] values;
values = NULL;
}

1 个答案:

答案 0 :(得分:1)

您要传递的变量(keysvalues):

thrust::sort_by_key(keys, keys+N, values);

主机变量。这意味着算法thrust will dispatch the host path,它不在GPU上运行。请参阅thrust quickstart guide以了解有关推力的更多信息,here是将推力与设备变量结合使用的实例。

显然,主机发送的推力排序比qsort实施慢。如果使用设备路径(仅限推力排序操作的时间),它可能会更快。