我正在使用SSE内在函数为英特尔x86 Nehalem微架构优化一些代码。
我的程序的一部分计算4个点产品,并将每个结果添加到阵列的连续块中的先前值。更具体地说,
tmp0 = _mm_dp_ps(A_0m, B_0m, 0xF1);
tmp1 = _mm_dp_ps(A_1m, B_0m, 0xF2);
tmp2 = _mm_dp_ps(A_2m, B_0m, 0xF4);
tmp3 = _mm_dp_ps(A_3m, B_0m, 0xF8);
tmp0 = _mm_add_ps(tmp0, tmp1);
tmp0 = _mm_add_ps(tmp0, tmp2);
tmp0 = _mm_add_ps(tmp0, tmp3);
tmp0 = _mm_add_ps(tmp0, C_0n);
_mm_storeu_ps(C_2, tmp0);
请注意,我通过使用4个临时xmm寄存器来保存每个点积的结果。在每个xmm寄存器中,结果被放入相对于其他临时xmm寄存器的唯一32位,这样最终结果如下所示:
tmp0 = R0-zero-zero-zero
tmp1 =零-R1-零 -
tmp2 =零 - 零 - 零 -
tmp3 =零 - 零 - R3
我将每个tmp变量中包含的值合并为一个xmm变量,并将它们与以下说明相加:
tmp0 = _mm_add_ps(tmp0, tmp1);
tmp0 = _mm_add_ps(tmp0, tmp2);
tmp0 = _mm_add_ps(tmp0, tmp3);
最后,我将包含点积的所有4个结果的寄存器添加到数组的连续部分,以便数组的索引增加一个点积,就像这样(C_0n是数组中当前的4个值)要更新; C_2是指向这4个值的地址):
tmp0 = _mm_add_ps(tmp0, C_0n);
_mm_storeu_ps(C_2, tmp0);
我想知道是否有更少的圆形,更有效的方法来获取点积的结果并将它们添加到阵列的连续块中。通过这种方式,我在寄存器之间进行了3次添加,其中只有1个非零值。似乎应该有一个更有效的方法来解决这个问题。
我感谢所有人的帮助。谢谢。
答案 0 :(得分:6)
对于这样的代码,我喜欢存储A和B的“转置”,以便{A_0m.x,A_1m.x,A_2m.x,A_3m.x}存储在一个向量中,等等。你可以使用乘法和加法来做点积,当你完成后,你就可以在一个向量中得到所有4个点积,而不需要任何改组。
这经常用于光线追踪,以一次测试4条光线对着一个平面(例如,当穿越kd树时)。但是,如果您无法控制输入数据,则进行转置的开销可能不值得。该代码也将在SSE4之前的机器上运行,尽管这可能不是问题。
关于现有代码的小效率说明:而不是此
tmp0 = _mm_add_ps(tmp0, tmp1);
tmp0 = _mm_add_ps(tmp0, tmp2);
tmp0 = _mm_add_ps(tmp0, tmp3);
tmp0 = _mm_add_ps(tmp0, C_0n);
执行此操作可能稍微好一点:
tmp0 = _mm_add_ps(tmp0, tmp1); // 0 + 1 -> 0
tmp2 = _mm_add_ps(tmp2, tmp3); // 2 + 3 -> 2
tmp0 = _mm_add_ps(tmp0, tmp2); // 0 + 2 -> 0
tmp0 = _mm_add_ps(tmp0, C_0n);
因为前两个mm_add_ps
现在是完全独立的。另外,我不知道添加与改组的相对时间,但可能会稍快一些。
希望有所帮助。
答案 1 :(得分:3)
也可以使用SSE3 hadd。在一些简单的测试中,它比使用_dot_ps更快。 这将返回可添加的4个点产品。
static inline __m128 dot_p(const __m128 x, const __m128 y[4])
{
__m128 z[4];
z[0] = x * y[0];
z[1] = x * y[1];
z[2] = x * y[2];
z[3] = x * y[3];
z[0] = _mm_hadd_ps(z[0], z[1]);
z[2] = _mm_hadd_ps(z[2], z[3]);
z[0] = _mm_hadd_ps(z[0], z[2]);
return z[0];
}
答案 2 :(得分:1)
您可以尝试将点积结果保留为低位字,并使用标量存储op _mm_store_ss
将每个m128寄存器中的一个浮点数保存到数组的相应位置。 Nehalem的存储缓冲区应该在同一行上累积连续写入并批量刷新到L1。
这样做的方法是celion的转置方法。 MSVC的_MM_TRANSPOSE4_PS宏将为您进行转置。
答案 3 :(得分:1)
我意识到这个问题已经过时了,但为什么要使用_mm_add_ps
呢?替换为:
tmp0 = _mm_or_ps(tmp0, tmp1);
tmp2 = _mm_or_ps(tmp2, tmp3);
tmp0 = _mm_or_ps(tmp0, tmp2);
您可以隐藏一些_mm_dp_ps
延迟。第一个_mm_or_ps
也不等待最后的2个点产品,它是一个(快速)逐位操作。最后:
_mm_storeu_ps(C_2, _mm_add_ps(tmp0, C_0));