我决定尝试使用论文 What Every Programmer Should Know About Memory(PDF)中的代码示例,并从第6.2节中看到了不同的结果。
程序正在进行矩阵乘法,我做了一些改动并将它们放在https://github.com/herberteuler/cpumemory。
在论文中,据说通过转置第二个矩阵,从matrix1.c
到matrix2.c
的优化可以节省大约76.6%的cpu周期(第6.2.1节,第50页):
Original Transposed
Cycles 16,765,297,870 3,922,373,010
Relative 100% 23.4%
但是在我的节点上,结果与上面的列表非常不同。
这是我的内核和CPU信息:
$ uname -a
Linux herberteuler 3.9-1-amd64 #1 SMP Debian 3.9.8-1 x86_64 GNU/Linux
$ cat /proc/cpuinfo
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 23
model name : Intel(R) Core(TM)2 Duo CPU P8600 @ 2.40GHz
stepping : 10
microcode : 0xa07
cpu MHz : 2401.000
cache size : 3072 KB
physical id : 0
siblings : 2
core id : 0
cpu cores : 2
apicid : 0
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx lm constant_tsc arch_perfmon pebs bts rep_good nopl aperfmperf pni dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm sse4_1 xsave lahf_lm ida dtherm tpr_shadow vnmi flexpriority
bogomips : 4788.33
clflush size : 64
cache_alignment : 64
address sizes : 36 bits physical, 48 bits virtual
power management:
processor : 1
vendor_id : GenuineIntel
cpu family : 6
model : 23
model name : Intel(R) Core(TM)2 Duo CPU P8600 @ 2.40GHz
stepping : 10
microcode : 0xa07
cpu MHz : 800.000
cache size : 3072 KB
physical id : 0
siblings : 2
core id : 1
cpu cores : 2
apicid : 1
initial apicid : 1
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx lm constant_tsc arch_perfmon pebs bts rep_good nopl aperfmperf pni dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm sse4_1 xsave lahf_lm ida dtherm tpr_shadow vnmi flexpriority
bogomips : 4788.33
clflush size : 64
cache_alignment : 64
address sizes : 36 bits physical, 48 bits virtual
power management:
这是执行matrix1
和matrix2
:
$ ./matrix1
cpu cycles: 18071621964
$ ./matrix2
cpu cycles: 15716582775
为什么我没有按预期看到matrix2
中CPU周期的大幅减少?
提前致谢。