应用错误收集

您还没有说过您拥有的缓存类型，是否直接映射？ N路集合关联？假设一个N路组关联（是的，你确实需要高速缓存的所有细节，这取决于你的特定CPU架构），并假设一个特定的矩阵排序，例如column-major那么你基本上会有很多冷未命中M * N / C，其中C是缓存行大小（取决于CPU，但通常是8倍）:)。

然后你将对目标矩阵进行有争议的访问，除非矩阵足够小以完全适合L1，否则你可以假设M * N冷未命中的最坏情况例如大小为32kB的L1可以容纳4000个双打，即大小为63 * 63的矩阵。

因此，我们将关注转换的最坏情况（M * N / C + M * N）总L1未命中。

一个想法是做翻转矩阵排序的技巧，例如从column-major到row-major，而不是物理移动它，将其作为转置进行访问。如果你有正确的矩阵实现，你可以在相同的数据上翻转矩阵排序，这是一个零成本操作。

真正昂贵的预取虽然从不在L1但在LLC（最后一级缓存），即使你得到L1未命中它仍然是一个便宜的错过，因为它将从L2加载。总之，除非您拥有目标CPU目录的所有微小细节，否则很难计算。

什么是最佳矩阵转置的缓存未命中率？

1 个答案: