我想用SystemTap(#cache引用,#cache未命中等)来分析内核模块的缓存行为。在线示例脚本显示了如何使用SystemTap读取perf事件和计数器,包括与缓存相关的事件和计数器: https://sourceware.org/systemtap/examples/profiling/perf.stp
此示例脚本默认适用于进程:
probe perf.hw.cache_references.process("/usr/bin/find").counter("find_insns") {}
我将process
关键字替换为module
,并将可执行文件的路径替换为我的内核模块的名称:
probe perf.hw.cache_references.module(MODULE_NAME).counter("find_insns") {}
我很确定我的模块有调试信息,但运行我得到的脚本:
语义错误:在解析探测点时:在perf.stp:14:7处标识符'perf' 来源:探测perf.hw.instructions.module(MODULE_NAME).counter(“find_insns”){}
任何想法可能出错?
修改
好的,我意识到perf计数器只能绑定到进程而不是模块(在此解释:https://sourceware.org/systemtap/man/stapprobes.3stap.html)。因此我将其改回:
probe perf.hw.cache_references.process(PATH_TO_BINARY).counter("find_insns") {}
现在,正如示例脚本所示,我有:
probe module(MODULE_NAME).function(FUNC_NAME) {
#save counter values on entrance
...
}
但现在正在运行它,我得到了:
语义错误:perf计数器'find_insns'未定义语义错误: 同时解析探测点:perf.stp:26:7处的标识符'模块' 来源:探测模块(MODULE_NAME).function(FUNC_NAME)
EDIT2:
所以这是我的完整脚本:
#! /usr/bin/env stap
# Usage: stap perf.stp <path-to-binary> <module-name> <function-name>
global cycles_per_insn
global branch_per_insn
global cacheref_per_insn
global insns
global cycles
global branches
global cacherefs
global insn
global cachemisses
global miss_per_insn
probe perf.hw.instructions.process(@1).counter("find_insns") {}
probe perf.hw.cpu_cycles.process(@1).counter("find_cycles") {}
probe perf.hw.branch_instructions.process(@1).counter("find_branches") {}
probe perf.hw.cache_references.process(@1).counter("find_cache_refs") {}
probe perf.hw.cache_misses.process(@1).counter("find_cache_misses") {}
probe module(@2).function(@3)
{
insn["find_insns"] = @perf("find_insns")
insns <<< (insn["find_insns"])
insn["find_cycles"] = @perf("find_cycles")
cycles <<< insn["find_cycles"]
insn["find_branches"] = @perf("find_branches")
branches <<< insn["find_branches"]
insn["find_cache_refs"] = @perf("find_cache_refs")
cacherefs <<< insn["find_cache_refs"]
insn["find_cache_misses"] = @perf("find_cache_misses")
cachemisses <<< insn["find_cache_misses"]
}
probe module(@2).function(@3).return
{
dividend = (@perf("find_cycles") - insn["find_cycles"])
divisor = (@perf("find_insns") - insn["find_insns"])
q = dividend / divisor
if (q > 0)
cycles_per_insn <<< q
dividend = (@perf("find_branches") - insn["find_branches"])
q = dividend / divisor
if (q > 0)
branch_per_insn <<< q
dividend = (@perf("find_cycles") - insn["find_cycles"])
q = dividend / divisor
if (q > 0)
cacheref_per_insn <<< q
dividend = (@perf("find_cache_misses") - insn["find_cache_misses"])
q = dividend / divisor
if (q > 0)
miss_per_insn <<< q
}
probe end
{
if (@count(cycles_per_insn)) {
printf ("Cycles per Insn\n\n")
print (@hist_log(cycles_per_insn))
}
if (@count(branch_per_insn)) {
printf ("\nBranches per Insn\n\n")
print (@hist_log(branch_per_insn))
}
if (@count(cacheref_per_insn)) {
printf ("Cache Refs per Insn\n\n")
print (@hist_log(cacheref_per_insn))
}
if (@count(miss_per_insn)) {
printf ("Cache Misses per Insn\n\n")
print (@hist_log(miss_per_insn))
}
}
答案 0 :(得分:1)
Systemtap无法读取内核探测的硬件perfctr值,因为linux没有提供合适的(例如原子)内部API来安全地从所有上下文中读取这些值。 perf ...进程探测仅起作用,因为该上下文不是原子的:systemtap探测器处理程序可以安全地阻塞。
我无法回答您上次尝试过的两个(?)脚本的详细问题,因为它们并未完整。