应用错误收集

您是否使用了两个库的单线程版本？据我所知，在处理大型矩阵时，GotoBLAS和Atlas都倾向于偷偷使用多个线程。

也就是说，在大矩阵大小下，所使用的算法往往比低级实现更重要。朴素矩阵乘法是O（N ^ 3），而Strassen算法扩展得更好，大约为O（N ^ 2.81）左右。然而，Strassen算法很好地矢量化（对于更大的SSE和AVX寄存器，效率几乎提高了2到8倍，具体取决于浮点格式和寄存器大小）。

我不确定你提到的两个GPU处理双精度数学有多好。通常它们针对单精度（32位浮点数）进行了优化，在处理双精度时降低到该速度的三分之一或四分之一。

您的测试中还有其他因素可能会影响结果。例如，您可能将矩阵传输时间包括在CPU中。这是否符合现实世界的用例，我不知道;我没有Nvidia GPU来测试..但我怀疑没有。通常有多个操作，矩阵不需要在操作之间传输。

我一直使用GCC和ICC C99编译器提供的SSE / AVX向量内置函数编写自己的低级SSE3矩阵函数;早期测试表明它大大超过了当前的Fortran实现，特别是在非常小的（例如高达8x8，针对每种大小进行了优化）和非常大（使用Strassen算法的1000x1000以上）大小的密集矩阵中。