我看到Tensorboard进程正在运行。文件被写入模型目录。但是,我反复得到异常:无法启动Tensorboard。我正在使用TF.estimator。
我正在Google Cloud Datalab上运行代码。我尝试过多次更改模型目录并重新启动Datalab实例。还尝试杀死所有正在运行的Tensorboard进程。到目前为止没有任何工作。它运行得更早,或者每10-15次尝试运行一次就神奇地运行了。发生了什么?
这就是我启动Tensorboard的方式。
from google.datalab.ml import TensorBoard as tb
tb.start(model_dir)
这是我的估算器的配置方式。
run_config = tf.estimator.RunConfig(
save_checkpoints_steps=FLAGS.save_checkpoints_steps,
tf_random_seed=FLAGS.tf_random_seed,
model_dir=model_dir
)
estimator = tf.estimator.Estimator(model_fn=model_fn,
config=run_config)
下面是tf.estimator将文件写入模型目录。
eval 8分钟前
checkpoint 124 B 9分钟前
events.out.tfevents.1559025239.78fe4cbf0fad 603 kB 9分钟前
graph.pbtxt 399 kB 12分钟前
model.ckpt-1.data-00000-of-00001 261 MB 11分钟前
model.ckpt-1.index 811 B 11分钟前
model.ckpt-1.meta 170 kB 11分钟前
model.ckpt-5.data-00000-of-00001 261 MB 9分钟前
model.ckpt-5.index 811 B 9分钟前
model.ckpt-5.meta 170 kB 9分钟前
我得到的错误如下。每次都是一样的,我没有进一步的信息来确定出了什么问题。
异常回溯(最近调用>最后一次) 在()中 2 #tensorboard --logdir ./logs/1/train --host本地主机--port 8081 3从google.datalab.ml导入TensorBoard为tb ----> 4 tb.start(model_dir)
/usr/local/envs/py3env/lib/python3.5/site-packages/google/datalab/ml/_tensorboard.py在开始时(logdir) 77重试-= 1 78 ---> 79引发异常('无法启动TensorBoard。') 80 81 @静态方法
异常:无法启动TensorBoard。
当我列出使用以下代码运行的Tensorboard进程时,得到的是以下内容。
x = tb.list() #Returns a dataframe
print(x)
logdir pid port
0 ./model_no_reuse/2 6236 40269
1 ./model_no_reuse/2 6241 57895
请帮助我找出问题所在。
答案 0 :(得分:0)
我尝试将VM配置从2 vCPU / 4.5 GB增加到4 vCPU / 20GB,问题已解决。看起来Tensorboard进程确实已经启动,但它似乎需要打开某些最低限度的资源。如果我得出其他结论,将会改变答案。