标签: performance openmp multicore matrix-multiplication
对于我的OpenMP计算密集型应用程序,其中每个线程执行相同数量(1600)的矩阵乘法,并且每个线程由一个单独的核心执行,我发现奇数个线程执行得更好(就每个线程每秒giga浮点运算)比偶数个线程。处理器是12核心AMD Opteron 6168.有没有其他人看到这样的行为?附图显示了这一点:
当矩阵乘法的数量增加时每核心的吞吐量 CPU核心数量的1600倍。矩阵大小为16x16x16