当执行我的CUDA程序时,我注意到如果在彼此之后运行两次,那么第二次执行要快得多(~100μs对~300μs)。这与CUDA设备的当前性能状态非常相关。当相继运行后,设备保持P2状态,但经过一段延迟后,它会降至P5然后降至P8,从而导致执行时间变慢。
Graph showing execution time vs performance state
我现在的问题是,如何才能最好地避免这种性能下降?有没有我可以使用的设置会阻止CUDA设备进入P5和P8?我更喜欢可以通过API或命令行应用它。
我查看了节流原因,并且正在播放的节目是NONE,IDLE和UNKNOWN,它们与性能状态,Streaming Multiprocessor时钟和内存时钟相关联。见下图:
Graphs showing other correlations
在图表中看起来有点困难,但是它们表明当系统全速运行时,会报告油门原因UNKNOWN。当SM时钟从1417下降到1240时,它没有报告任何节流原因。当SM时钟然后下降到1012及以下时,它报告节流原因IDLE。
我的系统运行的是Windows Server 2012 R2,而CUDA设备是TITAN X(Pascal),驱动程序版本371.90以TCC模式运行。我正在运行默认时钟设置,如下所示:
Attached GPUs : 1
GPU 0000:82:00.0
Clocks
Graphics : 139 MHz
SM : 139 MHz
Memory : 405 MHz
Video : 544 MHz
Applications Clocks
Graphics : 1417 MHz
Memory : 5005 MHz
Default Applications Clocks
Graphics : 1417 MHz
Memory : 5005 MHz
Max Clocks
Graphics : 1911 MHz
SM : 1911 MHz
Memory : 5005 MHz
Video : 1708 MHz
SM Clock Samples
Duration : 330.48 sec
Number of Samples : 100
Max : 1417 MHz
Min : 139 MHz
Avg : 598 MHz
Memory Clock Samples
Duration : 330.48 sec
Number of Samples : 100
Max : 4513 MHz
Min : 405 MHz
Avg : 1493 MHz
Clock Policy
Auto Boost : N/A
Auto Boost Default : N/A
答案 0 :(得分:0)
我在API或nvidia-smi中都找不到任何可以将性能状态保持在P2中的东西,所以我创建了一个空内核,每隔一定间隔(每10秒)调用一次。这是一种骇人听闻的方法,但是它确实将性能状态保持在P2中。
答案 1 :(得分:0)
另一种选择是使用 nvidia-settings
更改 PowerMizer 模式:
nvidia-settings -a "[gpu:0]/GpuPowerMizerMode=1"