我正在开展一个大学项目,要求我对MKL(11.1。)中实施的一些三角形本征解析器进行细分。所以我为此实现了一些测试平台,现在,我试图在vtune(英特尔VTune Amplifier XE 2013 Update 16)中对此进行分析。我需要找到瓶颈,即代码的哪一部分(MKL,而不是我的代码)以及在我花费最多时间的情况下由eigensolver调用的函数。
要做到这一点,我希望得到每个函数及其被调用者花费的总时间。但是,我得到的只是每个功能的自我时间。
我的代码是用icc 14.0 / 3.174编译的,在那里我尝试了两者,静态和动态地链接MKL。
我希望我不会在这里忽略一些愚蠢的事情。我也对如何找到所需值的其他建议持开放态度。
答案 0 :(得分:1)
好吧,你应该去“来电者/被叫者”或“自上而下”的观点。点击顶部的“标签”。您可以在VTune文档中找到更多详细信息: