我有一个巨大的vector<vector<int>>
(18M x 128)。我经常想要取这个向量的两行并通过这个函数进行比较:
int getDiff(int indx1, int indx2) {
int result = 0;
int pplus, pminus, tmp;
for (int k = 0; k < 128; k += 2) {
pplus = nodeL[indx2][k] - nodeL[indx1][k];
pminus = nodeL[indx1][k + 1] - nodeL[indx2][k + 1];
tmp = max(pplus, pminus);
if (tmp > result) {
result = tmp;
}
}
return result;
}
如你所见,函数循环通过两个行向量进行一些减法,最后返回一个最大值。这个功能将被使用一百万次,所以我想知道它是否可以通过SSE指令加速。我使用Ubuntu 12.04和gcc。
当然这是微观优化,但如果你能提供一些帮助会有所帮助,因为我对SSE一无所知。提前致谢
基准:
int nofTestCases = 10000000;
vector<int> nodeIds(nofTestCases);
vector<int> goalNodeIds(nofTestCases);
vector<int> results(nofTestCases);
for (int l = 0; l < nofTestCases; l++) {
nodeIds[l] = randomNodeID(18000000);
goalNodeIds[l] = randomNodeID(18000000);
}
double time, result;
time = timestamp();
for (int l = 0; l < nofTestCases; l++) {
results[l] = getDiff2(nodeIds[l], goalNodeIds[l]);
}
result = timestamp() - time;
cout << result / nofTestCases << "s" << endl;
time = timestamp();
for (int l = 0; l < nofTestCases; l++) {
results[l] = getDiff(nodeIds[l], goalNodeIds[l]);
}
result = timestamp() - time;
cout << result / nofTestCases << "s" << endl;
,其中
int randomNodeID(int n) {
return (int) (rand() / (double) (RAND_MAX + 1.0) * n);
}
/** Returns a timestamp ('now') in seconds (incl. a fractional part). */
inline double timestamp() {
struct timeval tp;
gettimeofday(&tp, NULL);
return double(tp.tv_sec) + tp.tv_usec / 1000000.;
}
答案 0 :(得分:7)
FWIW我整理了一个纯SSE版本(SSE4.1),它似乎比Core i7上的原始标量代码快20%左右:
#include <smmintrin.h>
int getDiff_SSE(int indx1, int indx2)
{
int result[4] __attribute__ ((aligned(16))) = { 0 };
const int * const p1 = &nodeL[indx1][0];
const int * const p2 = &nodeL[indx2][0];
const __m128i vke = _mm_set_epi32(0, -1, 0, -1);
const __m128i vko = _mm_set_epi32(-1, 0, -1, 0);
__m128i vresult = _mm_set1_epi32(0);
for (int k = 0; k < 128; k += 4)
{
__m128i v1, v2, vmax;
v1 = _mm_loadu_si128((__m128i *)&p1[k]);
v2 = _mm_loadu_si128((__m128i *)&p2[k]);
v1 = _mm_xor_si128(v1, vke);
v2 = _mm_xor_si128(v2, vko);
v1 = _mm_sub_epi32(v1, vke);
v2 = _mm_sub_epi32(v2, vko);
vmax = _mm_add_epi32(v1, v2);
vresult = _mm_max_epi32(vresult, vmax);
}
_mm_store_si128((__m128i *)result, vresult);
return max(max(max(result[0], result[1]), result[2]), result[3]);
}
答案 1 :(得分:3)
你可能会让编译器为此使用SSE。它会使代码更快吗?可能不是。原因是与计算相比存在大量内存访问。 CPU比内存快得多,并且当等待数据通过系统总线到达时,上面的一个简单的实现已经使CPU停止。使CPU更快只会增加它的等待时间。
nodeL的声明可能会对性能产生影响,因此为数据选择一个有效的容器非常重要。
存在一个阈值,其中优化确实具有良性,并且当您在存储器读取之间进行更多计算时 - 即,存储器读取之间的时间要大得多。发生这种情况的重点在很大程度上取决于您的硬件。
但是,如果你有非内存约束的任务可以在并行运行,那么优化代码会很有帮助,这样CPU在等待数据时就会保持忙碌。
答案 2 :(得分:3)
这会更快。向量矢量的双重引用是昂贵的。缓存其中一个解除引用将有所帮助。我知道它没有回答发布的问题,但我认为这将是一个更有用的答案。
int getDiff(int indx1, int indx2) {
int result = 0;
int pplus, pminus, tmp;
const vector<int>& nodetemp1 = nodeL[indx1];
const vector<int>& nodetemp2 = nodeL[indx2];
for (int k = 0; k < 128; k += 2) {
pplus = nodetemp2[k] - nodetemp1[k];
pminus = nodetemp1[k + 1] - nodetemp2[k + 1];
tmp = max(pplus, pminus);
if (tmp > result) {
result = tmp;
}
}
return result;
}
答案 3 :(得分:3)
要看几件事。一个是您传递的数据量。这将导致比琐碎的计算更大的问题。
我尝试使用库here
使用SSE指令(AVX)重写它我系统上的原始代码在11.5s内运行 随着Neil Kirk的优化,它降至10.5秒
编辑:用调试器测试代码,而不是在脑子里测试!
int getDiff(std::vector<std::vector<int>>& nodeL,int row1, int row2) {
Vec4i result(0);
const std::vector<int>& nodetemp1 = nodeL[row1];
const std::vector<int>& nodetemp2 = nodeL[row2];
Vec8i mask(-1,0,-1,0,-1,0,-1,0);
for (int k = 0; k < 128; k += 8) {
Vec8i nodeA(nodetemp1[k],nodetemp1[k+1],nodetemp1[k+2],nodetemp1[k+3],nodetemp1[k+4],nodetemp1[k+5],nodetemp1[k+6],nodetemp1[k+7]);
Vec8i nodeB(nodetemp2[k],nodetemp2[k+1],nodetemp2[k+2],nodetemp2[k+3],nodetemp2[k+4],nodetemp2[k+5],nodetemp2[k+6],nodetemp2[k+7]);
Vec8i tmp = select(mask,nodeB-nodeA,nodeA-nodeB);
Vec4i tmp_a(tmp[0],tmp[2],tmp[4],tmp[6]);
Vec4i tmp_b(tmp[1],tmp[3],tmp[5],tmp[7]);
Vec4i max_tmp = max(tmp_a,tmp_b);
result = select(max_tmp > result,max_tmp,result);
}
return horizontal_add(result);
}
缺乏分支可以将速度提高到9.5秒,但数据仍然是最大的影响。
如果你想加快速度,可以尝试将数据结构更改为单个数组/向量而不是2D数据(a.l.a.std :: vector),因为这会降低缓存压力。
修改强> 我想到了一些东西 - 你可以添加一个自定义分配器,以确保你在一个连续的内存块中分配2 * 18M向量,这样你就可以保留数据结构并仍然可以快速完成。但是你需要对其进行分析才能确定
编辑2:使用调试器测试代码,而不是在我脑海中测试! 对不起Alex,这应该会更好。不确定它会比编译器的速度快。我仍然认为这是内存访问的问题,所以我仍然会尝试单阵列方法。尽管如此。