例外:无法启动TensorBoard。在Google Cloud Datalab中

时间:2019-05-28 07:03:08

标签: tensorflow tensorboard google-cloud-datalab

我看到Tensorboard进程正在运行。文件被写入模型目录。但是,我反复得到异常:无法启动Tensorboard。我正在使用TF.estimator。

我正在Google Cloud Datalab上运行代码。我尝试过多次更改模型目录并重新启动Datalab实例。还尝试杀死所有正在运行的Tensorboard进程。到目前为止没有任何工作。它运行得更早,或者每10-15次尝试运行一次就神奇地运行了。发生了什么?

这就是我启动Tensorboard的方式。

from google.datalab.ml import TensorBoard as tb
tb.start(model_dir)

这是我的估算器的配置方式。

run_config = tf.estimator.RunConfig(
  save_checkpoints_steps=FLAGS.save_checkpoints_steps,
  tf_random_seed=FLAGS.tf_random_seed,
  model_dir=model_dir
)

estimator = tf.estimator.Estimator(model_fn=model_fn, 
config=run_config)

下面是tf.estimator将文件写入模型目录。

  

eval 8分钟前

     

checkpoint 124 B 9分钟前

     

events.out.tfevents.1559025239.78fe4cbf0fad 603 kB 9分钟前

     

graph.pbtxt 399 kB 12分钟前

     

model.ckpt-1.data-00000-of-00001 261 MB 11分钟前

     

model.ckpt-1.index 811 B 11分钟前

     

model.ckpt-1.meta 170 kB 11分钟前

     

model.ckpt-5.data-00000-of-00001 261 MB 9分钟前

     

model.ckpt-5.index 811 B 9分钟前

     

model.ckpt-5.meta 170 kB 9分钟前

我得到的错误如下。每次都是一样的,我没有进一步的信息来确定出了什么问题。

  

异常回溯(最近调用>最后一次)    在()中        2 #tensorboard --logdir ./logs/1/train --host本地主机--port 8081        3从google.datalab.ml导入TensorBoard为tb   ----> 4 tb.start(model_dir)

     

/usr/local/envs/py3env/lib/python3.5/site-packages/google/datalab/ml/_tensorboard.py在开始时(logdir)       77重试-= 1       78   ---> 79引发异常('无法启动TensorBoard。')       80       81 @静态方法

     

异常:无法启动TensorBoard。

当我列出使用以下代码运行的Tensorboard进程时,得到的是以下内容。

x = tb.list() #Returns a dataframe
print(x)
      logdir   pid   port
     

0 ./model_no_reuse/2 6236 40269
  1 ./model_no_reuse/2 6241 57895

请帮助我找出问题所在。

1 个答案:

答案 0 :(得分:0)

我尝试将VM配置从2 vCPU / 4.5 GB增加到4 vCPU / 20GB,问题已解决。看起来Tensorboard进程确实已经启动,但它似乎需要打开某些最低限度的资源。如果我得出其他结论,将会改变答案。