用于多核的Vtune放大器XE?

时间:2013-03-20 10:34:53

标签: performance parallel-processing cpu intel vtune

我正在使用Intel Vtune Amplifier XE 2013来分析在多核CPU上运行的并行程序,特别是它是用OpenCL编写的,并在Xeon Phi中执行。我想知道如何对Vtune带来的结果的确切解释,即

  1. 是单个线程还是整个核心收集的性能计数器的值? (假设CPU中有许多内核,并且可以在内核上同时执行许多线程,例如Xeon Phi)。
  2. Vtune如何在多核CPU上进行采样?它是在单个核心上进行采样并报告,还是在多个核心上进行采样并取平均值?

2 个答案:

答案 0 :(得分:1)

VTune默认在Xeon Phi上对所有核心进行采样,结果可以通过以下任一方式查看:聚合或每核心。使用GUI中BottomUp选项卡中的Grouping下拉框来调节数据聚合的方式,使用“change viewpoint”来切换热点,事件计数和其他可用视图。

有关VTune在Xeon Phi上进行OpenCl分析的更多信息,请参阅以下文章:

http://software.intel.com/en-us/articles/performance-tuning-of-opencl-applications-on-intel-xeon-phi-coprocessor-using-intel-vtune-amplifier-xe-2013

http://software.intel.com/en-us/articles/optimization-and-performance-tuning-for-intel-xeon-phi-coprocessors-part-2-understanding

答案 1 :(得分:0)

答案是,这取决于。每个线程都有一些计数器,如周期或L1未命中。但每个核心还有其他一些。所以它取决于你捕获的计数器。