我试图将经典的map-reduce问题(可以与MPI很好地并行)与OpenCL并行,即AMD实现。但结果让我感到困扰。
首先让我简要介绍一下这个问题。有两种类型的数据流入系统:功能集(每个30个参数)和样本集(每个都有9000+个维度)。这是一个经典的map-reduce问题,我需要计算每个样本(Map)上每个特征的得分。然后,总结每个功能的总分(Reduce)。大约有10k功能和30k样本。
我尝试了不同的方法来解决问题。首先,我尝试按功能分解问题。问题是得分计算包括随机存储器访问(选择一些9000+维度并进行加/减计算)。由于我无法合并内存访问,因此成本很高。然后,我尝试通过样本分解问题。问题是,总结总得分,所有线程都在竞争几个得分变量。它会一直覆盖分数,结果证明是错误的。 (我不能先进行个人得分,后来总结,因为它需要10k * 30k * 4字节)。
我尝试的第一种方法在具有8个线程的i7 860 CPU上给出了相同的性能。但是,我不认为这个问题是无法解决的:它与光线跟踪问题非常相似(为此您需要计算数百万条光线对数百万个三角形的计算)。有什么想法吗?
另外,我发布了一些代码:
按功能分解(有效,但速度慢):
__kernel void __ccv_cl_pos_error_rate(__global unsigned int* err_rate,
__constant int* feature, __constant int* data, int num, __constant
unsigned int* w, int s, int isiz0, int isiz01, int step0, int step1)
{
int igrid = get_global_id(0);
__constant int* of = feature + igrid * 30;
unsigned int e = 0;
int k, i;
int step[] = { step0, step1 };
for (k = 0; k < num; k++)
{
__constant int* kd = data + k * isiz01;
int pmin = kd[of[0] * isiz0 + of[1] + of[2] * step[of[0]]];
int nmax = kd[of[3] * isiz0 + of[4] + of[5] * step[of[3]]];
for (i = 0; i < 5; i++)
{
if (of[i * 6] >= 0)
pmin = min(pmin, kd[of[i * 6] * isiz0 + of[i * 6 + 1] + of[i * 6 + 2] * step[of[i * 6]]]);
if (of[i * 6 + 3] >= 0)
nmax = max(nmax, kd[of[i * 6 + 3] * isiz0 + of[i * 6 + 4] + of[i * 6 + 5] * step[of[i * 6 + 3]]]);
}
if (pmin <= nmax)
e += w[s + k];
}
err_rate[igrid] += e;
}
按样品分解,不起作用:
__kernel void __ccv_cl_pos_error_rate(__global unsigned int* err_rate,
__constant int* feature, __constant int* data, int num, __constant
unsigned int* w, int s, int isiz0, int isiz01, int step0, int step1,
__local int* shared)
{
int igrid = get_global_id(0);
int lsize = get_local_size(0);
int lid = get_local_id(0);
unsigned int e = 0;
int k, i;
int ws = w[s + igrid];
int step[] = { step0, step1 };
for (k = 0; k < isiz01; k += lsize)
if (k + lid < isiz01)
shared[k + lid] = data[igrid * isiz01 + k + lid];
barrier(....);
for (k = 0; k < num; k++)
{
__constant int* of = feature + k * 30;
int pmin = shared[of[0] * isiz0 + of[1] + of[2] * step[of[0]]];
int nmax = shared[of[3] * isiz0 + of[4] + of[5] * step[of[3]]];
for (i = 0; i < 5; i++)
{
if (of[i * 6] >= 0)
pmin = min(pmin, shared[of[i * 6] * isiz0 + of[i * 6 + 1] + of[i * 6 + 2] * step[of[i * 6]]]);
if (of[i * 6 + 3] >= 0)
nmax = max(nmax, shared[of[i * 6 + 3] * isiz0 + of[i * 6 + 4] + of[i * 6 + 5] * step[of[i * 6 + 3]]]);
}
if (pmin <= nmax)
err_rate[k] += ws; // here is wrong.
}
barrier(....);
}
答案 0 :(得分:1)
来自这里的安德鲁库克。从你的第一次尝试开始,我现在更好地理解了这个问题,并且看到选择样本取决于功能是什么在那里杀死你。
是按功能完全随机选择样本,还是可以利用其中的规律性(排序功能以便使用相同样本的那些一起处理)?这是显而易见的,所以我想这是不可能的。
不幸的是,我不理解你的第二次尝试。