我使用一个ComputeCommandEncoder
来发送4个不同的Metal内核,我想知道执行每个内核需要多长时间。
当我使用Xcode的 Capture GPU Frame 工具分析应用程序时,Xcode声称执行4个内核所花费的总时间为100µs
。问题是每次我对应用进行了分析,报告的总体执行时间完全 100µs
。
出于好奇,我试图执行并只分析4个内核中的一个内核。令我惊讶的是,Xcode分析器再次显示100µs
作为总计算时间。 (看看下面的插图。)
如何确定各个内核的实际执行时间?