我已经能够使用gcloud ml-engine sumbit job
CLI进行成功训练。然后,我从成功作业的控制台培训输入中复制了“ args”值。
"args": [
"--output_dir=gs://composer-models/flowers/trained_cnn",
"--train_steps=1000",
"--learning_rate=0.01",
"--batch_size=40",
"--model=cnn",
"--augment",
"--batch_norm",
"--train_data_path=gs://cloud-ml-data/img/flower_photos/train_set.csv",
"--eval_data_path=gs://cloud-ml-data/img/flower_photos/eval_set.csv"
]
但是现在,当我尝试提供这些以使用气流MLEngineTrainingOperator
来运行作业时,出现以下错误:
即使参数与使用gcloud
的成功运行中使用的参数相同。
这是应该解析task.py
文件中的args的部分:
parser.add_argument(
'--learning_rate',
help='Initial learning rate for training',
type=float,
default=0.01
)
答案 0 :(得分:1)
用于培训师的论点应传递到training_args
中的MLEngineTrainingOperator
。
在此处检查操作员的文档。
http://airflow.apache.org/integration.html#mlenginetrainingoperator
从错误消息中,我怀疑您仅在--learning_rate
中为--batch_size
和task.py
添加了参数?