我正在Ubuntu 18.04上的12个CPU和2个GPU上运行具有86个进程的mpirun(OpenMPI)。正在运行的应用程序正在训练神经网络。
经过一天左右的训练,迭代速度大大降低。该代码在单线程上运行良好,网络流量(文件读取)在规范范围内,并且CPU和GPU没有过多负载。
所以我认为问题出在mpirun。
是否有非侵入性工具可用来显示MPI运行的性能?我一直在查看Performance Co-Pilot,但在软件本身中看不到任何MPI配置文件。
答案 0 :(得分:0)
Callgrind和kcachegrind可能有用。简要浏览一下[1]可能也会对您有所帮助。
[1] https://www.open-mpi.org/faq/?category=debugging#parallel-debuggers