我需要乘以N个矩阵对。如果我们正在乘以序列,那么compler可以使用所有核来进行矩阵对的乘法,如果它们足够大的话。为简单起见,我们做元素乘法 但是,并行化仍然不是最佳的。
从另一方面,我们可以使用单线程乘法乘以并行中的K矩阵对,其中K是核的数量。我认为以这种方式将有更多的cach未命中率,这种方式会更慢。我是对的吗?
答案 0 :(得分:2)
并行化通常比序列化更快,除非您有大量的开销来分割计算。所以你问的问题是“我们能否有效地分割这种乘法?”
是的,我们可以,并且我们可以实际上以Θ(n ^ 2)的顺序加速结果。 See here,特别是关于缓存行为的部分。祝你好运!