应用错误收集

使用奇数个线程而不是偶数运行程序如何运行得更快？

时间：2015-09-20 19:30:28

标签： performance openmp multicore matrix-multiplication

对于我的OpenMP计算密集型应用程序，其中每个线程执行相同数量（1600）的矩阵乘法，并且每个线程由一个单独的核心执行，我发现奇数个线程执行得更好（就每个线程每秒giga浮点运算）比偶数个线程。处理器是12核心AMD Opteron 6168.有没有其他人看到这样的行为？附图显示了这一点：

graph 1

当矩阵乘法的数量增加时每核心的吞吐量 CPU核心数量的1600倍。矩阵大小为16x16x16

0 个答案:

没有答案