ml-engine模糊错误:“grpc epoll fd:3”

时间:2017-12-18 20:31:08

标签: machine-learning tensorflow grpc google-cloud-ml

我正在尝试使用gcloud ml-engine jobs submit training进行训练,并且作业在日志中遇到以下输出:

enter image description here enter image description here

我的config.yaml:

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  workerType: standard_gpu
  parameterServerType: large_model
  workerCount: 1
  parameterServerCount: 1

关于“grpc epoll fd:3”意味着什么以及如何解决这个问题的任何提示?我的输入函数从gs://输入16G TFRecord,但是批处理= 4,shuffle buffer_size = 4.每个输入样本是单通道99 x 161px图像:shape(15939,) - 不是很大。

由于

1 个答案:

答案 0 :(得分:2)

也许这是Estimator实施中的一个错误,不确定。现在的解决方案是使用@ guoqing-xu

建议的tf.estimator.train_and_eval

工作样本

train_input_fn = gen_input(FLAGS.train_input)
eval_input_fn = gen_input(FLAGS.eval_input)

model_params = {
  'learning_rate': FLAGS.learning_rate,
}

estimator = tf.estimator.Estimator(model_dir=model_dir, model_fn=model_fn, params=model_params)
train_spec = tf.estimator.TrainSpec(input_fn=train_input_fn, max_steps=1000)
eval_spec = tf.estimator.EvalSpec(input_fn=eval_input_fn, steps=None, start_delay_secs=30, throttle_secs=30)

tf.estimator.train_and_evaluate(estimator, train_spec, eval_spec)