我的TensorBoard Profile计算结果有点混乱。看来我的主机空闲时间(不确定这是哪个主机吗?)确实很高,但是我的TPU空闲时间是0%,这非常好。另外,我必须怎么做才能测量步进时间?我在这里有点迷路。
答案 0 :(得分:1)
没有步进时间图的结果可以指示步进时间长于默认收集持续时间(2秒)。
要使用选项增加此运行capture_tpu_profile
--duration_ms=60000
在60秒内捕获指标。
一种检查是否是问题的方法是在跟踪查看器中查找顶部的编号步骤。
TPU步骤时间通常少于一秒,因此,如果60秒仍不够长,则可能是输入管道出现问题。跟踪查看器应向您显示哪些线程正在占用时间,您可以按照本指南来优化输入管道。
https://www.tensorflow.org/performance/datasets_performance
另一种选择是在模型运行了几步之后捕获概要文件,由于缓存的建立,前几步往往会变慢。