标签: c++ memory parallel-processing intel xeon-phi
现代处理器将内存访问与计算重叠。我想在Intel Xeon Phi上研究这种重叠。一种传统的方法是修改代码并制作两个版本:仅内存和仅计算,就像本幻灯片中用于GPU的方法:http://www.nvidia.com/content/GTC-2010/pdfs/2012_GTC2010.pdf。
但是,我的程序具有复杂的控制流和数据依赖性。我很难做出这两个版本。
有没有方便的方法来衡量这种重叠?我正在考虑Vtune配置文件,但我仍然不确定我应该看什么硬件计数器。