This example显示了如何分析tensorflow程序。我用这个工具来描述我的程序,一个简单的LSTM。结果显示为:
/gpu:0/stream:all Compute(pid 5)
/job:localhost/replica:0/task:0/gpu:0 Compute(pid 3)
我的问题:
a)每一行的含义是什么。
b)特别是/gpu:0/stream:all Compute(pid 5)
和/job:localhost/replica:0/task:0/gpu:0 Compute(pid 3)
之间的区别是什么。
c)为什么他们的执行时间不同,即0.072ms
和0.094ms
。
答案 0 :(得分:2)
以下是其中一位工程师的最新消息:
' / gpu:0 / stream:*' timelsines是CUDA内核执行时间的硬件跟踪。
' / gpu:0' line是TF软件设备在CUDA流上排队操作(通常几乎为零时间)