我已经阅读了这个讨论:How to use multi CPU cores to train NNs using caffe and OpenBLAS
我的机器有4个CPU。
我设置了以下变量:
export OPENBLAS_NUM_THREADS=4
export OMP_NUM_THREADS=4
然而它没有帮助:
I0314 17:16:21.365342 27054 solver.cpp:229] Iteration 696, loss = 0.727476
I0314 17:17:40.497768 27054 solver.cpp:229] Iteration 697, loss = 0.72481
这里的比较是
的结果export OPENBLAS_NUM_THREADS=1
export OMP_NUM_THREADS=1
I0314 17:19:41.242964 30215 solver.cpp:229] Iteration 16, loss = 0.933368
I0314 17:21:04.143072 30215 solver.cpp:229] Iteration 17, loss = 0.772665
一次迭代仍需要大约80秒。
正如我所看到的,所提到的变量没有任何影响(时间上的差异可以通过机器的不同负载来解释)。
如何确保OpenBLAS
确实没有利用4个CPU以及为什么?