我有一个CUDA内核,我正在编译成一个没有任何特殊标志的cubin文件:
nvcc text.cu -cubin
虽然有这条消息,但它编译了:
咨询:假设全局内存空间
,无法分辨指针指向的内容
以及对某个临时cpp文件中的行的引用。我可以通过评论一些对我来说毫无意义的看似随意的代码来实现这一点。
内核如下:
__global__ void string_search(char** texts, int* lengths, char* symbol, int* matches, int symbolLength)
{
int localMatches = 0;
int blockId = blockIdx.x + blockIdx.y * gridDim.x;
int threadId = threadIdx.x + threadIdx.y * blockDim.x;
int blockThreads = blockDim.x * blockDim.y;
__shared__ int localMatchCounts[32];
bool breaking = false;
for(int i = 0; i < (lengths[blockId] - (symbolLength - 1)); i += blockThreads)
{
if(texts[blockId][i] == symbol[0])
{
for(int j = 1; j < symbolLength; j++)
{
if(texts[blockId][i + j] != symbol[j])
{
breaking = true;
break;
}
}
if (breaking) continue;
localMatches++;
}
}
localMatchCounts[threadId] = localMatches;
__syncthreads();
if(threadId == 0)
{
int sum = 0;
for(int i = 0; i < 32; i++)
{
sum += localMatchCounts[i];
}
matches[blockId] = sum;
}
}
如果我换行
localMatchCounts[threadId] = localMatches;
在第一个for循环后用这一行
localMatchCounts[threadId] = 5;
它没有通知编译。这也可以通过注释掉线上方的循环的看似随机的部分来实现。我也尝试用普通数组替换本地内存数组无效。谁能告诉我这是什么问题?
系统是Vista 64bit,它的价值。
编辑:我修复了代码,使其实际工作,但它仍然产生编译器通知。警告似乎不是问题,至少在正确性方面(可能会影响性能)。
答案 0 :(得分:1)
像char **这样的指针数组在内核中存在问题,因为内核无法访问主机的内存。
最好分配一个连续缓冲区,并以支持并行访问的方式对其进行划分
在这种情况下,我将定义一个1D数组,其中包含一个接一个定位的所有字符串和另一个1D数组,大小为2 * numberOfStrings,其中包含第一个数组中每个字符串的偏移量及其长度:
例如 - 准备内核:
char* buffer = st[0] + st[1] + st[2] + ....; int* metadata = new int[numberOfStrings * 2]; int lastpos = 0; for (int cnt = 0; cnt < 2* numberOfStrings; cnt+=2) { metadata[cnt] = lastpos; lastpos += length(st[cnt]); metadata[cnt] = length(st[cnt]); }在内核中:
currentIndex = threadId + blockId * numberOfBlocks; char* currentString = buffer + metadata[2 * currentIndex]; int currentStringLength = metadata[2 * currentIndex + 1];
答案 1 :(得分:0)
问题似乎与char **参数有关。把它变成char *解决了警告,所以我怀疑cuda可能会遇到这种形式的数据问题。也许cuda更喜欢在这种情况下使用特定的cuda 2D阵列。