我的主程序中有一个大的char数组,我将它以块的形式复制到设备中 记忆。我在程序中运行大约500,000个线程,每个线程访问2000个字符。 所以我用代码
一次传输500,000 * 2000 = 1GB字节err = cudaMemcpy (dev_database, adjusted_database[k], JOBS * 2000 * sizeof(char), cudaMemcpyHostToDevice);
if(err != cudaSuccess) { printf("CUDA error: %s\n", cudaGetErrorString(err)); exit(EXIT_FAILURE); }
在我的内核中,我还定义了三个共享数组
//__shared__ char dev_query[200];
__shared__ float dev_scores[200*5];
__shared__ int dev_index[26];
并使用
初始化它们if(threadIdx.x == 0) {
//for(i = 0; i < 200; i++){ dev_query[i] = dev_query_constant[i]; }
for(i = 0; i < 200 * 5; i++){ dev_scores[i] = dev_scores_constant[i]; }
for(i = 0; i < 26; i++){ dev_index[i] = dev_index_constant[i]; }
}
__syncthreads();
如果我用两行注释运行我的程序,我的内核会返回奇怪的内容 值,当我复制char数组的第二个块时,我得到错误
CUDA错误:未指定的启动失败
如果我取消注释上面代码中的行,一切正常。如果我复制较小 阵列的块,如100MB而不是1GB,它的工作正常,直到我到达 第6块,我得到与上面相同的错误。
这是非常奇怪的行为,我想了解为什么会发生这种情况。是 哪个地方出现了这个错误?很难确定它,因为 程序工作正常,如果我传输一个小块(如100MB)而忽略另一个 那些。如果我取消注释与共享变量相关的行,它也可以正常工作 或将共享变量更改为常量。 任何帮助将不胜感激。谢谢!
编辑:
这是我的内核。总而言之,我正在计算两个相似度得分
字符串通过比较0和长度之间的所有i的第i个字符。
以下代码将产生上述错误
除非您在if(threadIdx.x == 0) {
之后立即取消注释该行。或者如果你
用常量替换下面的共享数组然后它也可以正常工作。
__global__ void assign7(int jobs_todo, char* database, float* results, int flag) {
unsigned int id = threadIdx.x + blockIdx.x * blockDim.x;
if(id < jobs_todo) {
__shared__ char dev_query[200];
__shared__ float dev_pos_specific_scores[200*5];
__shared__ int dev_subst_index[26];
int j_, i, p, stop, k; //stop2;
float score=0, max=0;
char ch; //ch1, ch2;
if(threadIdx.x == 0) {
//for(i = 0; i < 51; i++){ dev_query[i] = dev_query_constant[i]; }
for(i = 0; i < 5 * 200; i++){ dev_pos_specific_scores[i] = dev_pos_specific_scores_constant[i]; }
for(i = 0; i < 26; i++){ dev_subst_index[i] = dev_subst_index_constant[i]; }
}
__syncthreads();
for(i = 1; i <= 2000 - 51; i += 1){
p = jobs_todo*(i-1);
score = 0;
stop = 51/1; stop = stop*1;
for(j_ = 1; j_ <= stop; j_ += 1){
k = (j_-1)*5;
ch = database[p + id];
score += dev_pos_specific_scores[k + dev_subst_index[ch - 'A']];
if(score < 0) score = 0;
if(score > max) max = score;
p += jobs_todo;
}
}
results[id] = max;
}
}
答案 0 :(得分:2)
以下部分使用k
而不初始化它:
ch = database[p + id];
score += dev_scores[k + dev_index[ch - 'A']];
这是无关紧要的,但这一部分:
if(threadIdx.x == 0) {
//for(i = 0; i < 200; i++){ dev_query[i] = dev_query_constant[i]; }
for(i = 0; i < 200 * 5; i++){ dev_scores[i] = dev_scores_constant[i]; }
for(i = 0; i < 26; i++){ dev_index[i] = dev_index_constant[i]; }
}
可以更改为:
if(threadIdx.x < 200) {
// dev_query[i] = dev_query_constant[i];
}
if(threadIdx.x < 200 * 5) { // or iterate whole block 5 times..
dev_scores[i] = dev_scores_constant[i];
}
...
答案 1 :(得分:0)
数据中有一些字符导致dev_index[ch-'A']
返回-1。这个
当k = 0时,我得到dev_scores
-1的索引。我相信这是...的来源
我的代码中的内存错误。我评论了所有内容并逐渐增加了未注释的部分。
它现在工作正常。感谢@talonmies,@harrism和@perreal的评论!