在我的应用程序中,我展示了所有可用的OpenCL设备,以便用户可以选择他想要执行计算的设备。 我在笔记本电脑上得到的结果让我感到困惑。
以下是产生这些结果的代码的摘录:
//CL_DEVICE_TYPE
{
cl_device_type devtype;
QString temp = "Unknown";
err = clGetDeviceInfo(devices[i][j], CL_DEVICE_TYPE, sizeof(devtype), &devtype, NULL);
if(err == CL_SUCCESS)
{
if(devtype == CL_DEVICE_TYPE_CPU)
temp = "CPU";
else if(devtype == CL_DEVICE_TYPE_GPU)
temp = "GPU";
else if(devtype == CL_DEVICE_TYPE_ACCELERATOR)
temp = "Accelerator";
else
temp = "Unkown";
}
ilist->append(temp);
}
//CL_DEVICE_MAX_CLOCK_FREQUENCY
{
cl_uint devfreq;
err = clGetDeviceInfo(devices[i][j], CL_DEVICE_MAX_CLOCK_FREQUENCY, sizeof(devfreq), &devfreq, NULL);
if(err == CL_SUCCESS)
ilist->append(QString::number((unsigned int)devfreq));
else
ilist->append("Unknown");
}
//CL_DEVICE_GLOBAL_MEM_SIZE
{
cl_ulong devmem;
err = clGetDeviceInfo(devices[i][j], CL_DEVICE_GLOBAL_MEM_SIZE, sizeof(devmem), &devmem, NULL);
devmem /= 1000000;
if(err == CL_SUCCESS)
ilist->append(QString::number((unsigned int)(devmem)));
else
ilist->append("Unkown");
}
//CL_DEVICE_MAX_COMPUTE_UNITS * CL_DEVICE_MAX_WORK_GROUP_SIZE
{
cl_uint devcores;
err = clGetDeviceInfo(devices[i][j], CL_DEVICE_MAX_COMPUTE_UNITS, sizeof(devcores), &devcores, NULL);
if(err == CL_SUCCESS)
{
size_t devcores2;
err = clGetDeviceInfo(devices[i][j], CL_DEVICE_MAX_WORK_GROUP_SIZE, sizeof(devcores2), &devcores2, NULL);
if(err == CL_SUCCESS)
ilist->append(QString::number(((unsigned int)(devcores)) * ((unsigned int)(devcores2))));
else
ilist->append("Unkown");
}
else
ilist->append("Unknown");
}
我不明白的是内存和CPU显示的并行计算。 知道为什么我得到这些结果吗?
答案 0 :(得分:2)
这是因为CL_DEVICE_MAX_WORK_GROUP_SIZE不是并行计算能力的指标。
答案 1 :(得分:1)
测量设备性能是一项复杂的任务。
您使用的指标不适合确定设备的速度。而且,像矩阵乘法这样的简单任务也没有表现出来。您需要使用基准来确定计算能力。