numpy.linalg.lstsq在不同处理器上的不同结果

时间:2019-04-29 17:08:56

标签: python numpy intel amd openblas

我对numpy.linalg.leastsq的行为感到非常困惑。 我生成了完全相同的输入数据,对其进行了腌制并将其移动到具有不同操作系统(Ubuntu 16.04与Ubuntu 18.04),不同处理器(Ubuntu 16.04上的AMD与Ubuntu 18.04上的Intel)以及相同的numpy版本1.16的两台不同计算机上。 3。

我的矩阵具有无限的条件数,但是对于Intel计算机,我可以找到一个很好的解决方案(对于基准测试,我事先知道),而对于AMD计算机,解决方案则大不相同。

我认为这可能是由于两种体系结构的OpenBLAS实现方式不同而引起的。 任何想法如何使两个方法返回相同的值? 是因为英特尔使用了一些优化的MKL实现吗?

我的AMD处理器是具有以下 cpuinfo 的Threadripper:

vendor_id   : AuthenticAMD
cpu family  : 23
model       : 1
model name  : AMD Ryzen Threadripper 1950X 16-Core Processor
stepping    : 1
microcode   : 0x8001129
cpu MHz     : 2200.000
cache size  : 512 KB
physical id : 0
siblings    : 32
core id     : 15
cpu cores   : 16
apicid      : 31
initial apicid  : 31
fpu     : yes
fpu_exception   : yes
cpuid level : 13
wp      : yes
flags       : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl nonstop_tsc extd_apicid amd_dcm aperfmperf eagerfpu pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw skinit wdt tce topoext perfctr_core perfctr_nb bpext perfctr_l2 mwaitx cpb hw_pstate ssbd vmmcall fsgsbase bmi1 avx2 smep bmi2 rdseed adx smap clflushopt sha_ni xsaveopt xsavec xgetbv1 clzero arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic
bugs        : fxsave_leak sysret_ss_attrs spectre_v1 spectre_v2 spec_store_bypass
bogomips    : 6786.57
TLB size    : 2560 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm hwpstate eff_freq_ro 

而英特尔公司拥有以下 cpuinfo

vendor_id   : GenuineIntel
cpu family  : 6
model       : 26
model name  : Intel(R) Core(TM) i7 CPU         950  @ 3.07GHz
stepping    : 5
microcode   : 0x1d
cpu MHz     : 1668.950
cache size  : 8192 KB
physical id : 0
siblings    : 8
core id     : 3
cpu cores   : 4
apicid      : 7
initial apicid  : 7
fpu     : yes
fpu_exception   : yes
cpuid level : 11
wp      : yes
flags       : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni dtes64 monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm sse4_1 sse4_2 popcnt lahf_lm pti ssbd ibrs ibpb stibp tpr_shadow vnmi flexpriority ept vpid dtherm ida flush_l1d
bugs        : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf
bogomips    : 6147.49
clflush size    : 64
cache_alignment : 64
address sizes   : 36 bits physical, 48 bits virtual
power management:

很明显,我更喜欢在AMD上运行,因为它是更快的CPU。

0 个答案:

没有答案