我一直在研究在iOS 4中提供的Accelerate框架。具体来说,我尝试在C中的线性代数库中使用Cblas例程。现在我无法使用这些函数在非常基本的惯例中给我任何性能提升。具体来说,是4x4矩阵乘法的情况。无论何时我无法利用矩阵的仿射或同质性质,我一直在使用这个例程(删节):
float *mat4SetMat4Mult(const float *m0, const float *m1, float *target) {
target[0] = m0[0] * m1[0] + m0[4] * m1[1] + m0[8] * m1[2] + m0[12] * m1[3];
target[1] = ...etc...
...
target[15] = m0[3] * m1[12] + m0[7] * m1[13] + m0[11] * m1[14] + m0[15] * m1[15];
return target;
}
Cblas的等效函数调用是:
cblas_sgemm(CblasColMajor, CblasNoTrans, CblasNoTrans,
4, 4, 4, 1.f, m0, 4, m1, 4, 0.f, target, 4);
比较两者,通过使它们运行大量充满随机数的预先计算的矩阵(每个函数每次都获得完全相同的输入),当使用C时钟时,Cblas例程执行速度大约慢4倍()函数。
这对我来说似乎不对,而且我感觉我在某处做错了什么。我是否必须以某种方式启用设备的NEON设备和SIMD功能?或者我不希望用这么小的矩阵来获得更好的性能?
非常感谢,
跋
答案 0 :(得分:5)
Apple WWDC2010演示文稿表示,即使是3x3矩阵操作,Accelerate仍然应该加速,所以我认为你应该看到4x4略有改进。但是你需要考虑的是Accelerate& NEON旨在大大加速整数运算,但不一定是浮点运算。您没有提到您的CPU处理器,而且似乎Accelerate将使用NEON或VFP进行浮点运算,具体取决于您的CPU。如果它使用NEON指令进行32位浮点运算,那么它应该运行得很快,但是如果它使用VFP进行32位浮点运算或64位双运算,那么运行速度非常慢(因为VFP实际上不是SIMD)。因此,您应确保使用Accelerate进行32位浮点运算,并确保它将使用NEON而不是VFP。
另一个问题是,即使它确实使用了NEON,也不能保证你的C编译器生成比没有NEON指令的简单C函数更快的NEON代码,因为GCC之类的C编译器经常生成可怕的SIMD代码,可能比标准代码运行慢。这就是为什么它总是很重要的是测试生成的代码的速度,并可能手动查看生成的汇编代码,看看你的编译器是否生成了错误的代码。
答案 1 :(得分:4)
BLAS和LAPACK库设计用于我认为的“中到大矩阵”(一边从几十到几万)。它们将为较小的矩阵提供正确的结果,但性能不会尽可能好。
有几个原因:
这对您意味着什么:如果您希望提供专用的小矩阵操作,请访问bugreport.apple.com并提交请求此功能的错误。