如何通过TensorFlow分析元数据准确查明性能瓶颈

时间:2018-07-27 09:54:19

标签: performance tensorflow profiling tensorboard rnn

我最近对deepmind's DNC模型不满意,发现严重的性能问题。我已经优化了模型中不在CPU中运行的部分,现在根据GCP pvm's K80 GPU的输出,一切都在log_device上运行,但是nvidia-smi -l 1仅显示了5-10%不稳定的GPU使用情况。

性能没有提高一点。使用LSTM或其衍生物构造的常规RNN模型在每个训练步骤中花费的时间不超过2秒,该模型花费的时间超过24秒。我尝试使用RunMetadata来查找妨碍整体性能的确切节点,但是TensorBoard似乎显示DNC中的所有节点都具有超过18秒的高延迟。这根本无法帮助我缩小犯罪嫌疑人的范围。我还尝试使用Timeline object为每个操作的执行时间生成一个json报告,但是TF ver 1.9.0中似乎缺少该对象。有什么想法可以得到详细的指标来分析性能问题吗?还是我以错误的方式使用了RunMetadata?

enter image description here within dnc

0 个答案:

没有答案