是否有工具可视化OpenMP for-loop块的执行? 例如,考虑下面的并行for循环:
#pragma omp parallel for schedule(dynamic, 10) num_threads(4)
for(int i=1; i<100; i++)
{
// do work of uneven execution time.
}
我想在不修改代码的情况下可视化10个块(例如(1,10),(11,20),...,(91,100))中的每一个执行的线程以及它们花了多长时间?
据我所知,只启动了四个(每个线程一个)并行轮廓函数,并且这些函数中的每一个都以同步方式请求块。我可以在英特尔VTune等工具中可视化四个并行轮廓函数,但无法将此可视化深入到块级别。
提前感谢您的提示和建议!