Question

我有一个如下代码，我想提交给Google cloud ml。我已经测试了他们的例子并得到了结果。

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import tensorflow as tf
import numpy as np

# Data sets
I_TRAINING = "/home/android/Desktop/training.csv"
I_TEST = "/home/android/Desktop/test.csv"

# Load datasets.
training_set = tf.contrib.learn.datasets.base.load_csv(filename=I_TRAINING, target_dtype=np.int)
test_set = tf.contrib.learn.datasets.base.load_csv(filename=I_TEST, target_dtype=np.int)

# Specify that all features have real-value data
feature_columns = [tf.contrib.layers.real_valued_column("", dimension=2)]

# Build 3 layer DNN with 10, 20, 10 units respectively.
classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_columns,
                                            hidden_units=[10, 20, 10],
                                            n_classes=2,
                                            model_dir="/tmp/my_model")

# Fit model.
classifier.fit(x=training_set.data, y=training_set.target, steps=2000)

# Evaluate accuracy.
accuracy_score = classifier.evaluate(x=test_set.data, y=test_set.target)["accuracy"]
print('Accuracy: {0:f}'.format(accuracy_score))

# Classify two new flower samples.
#new_samples = np.array(
 #   [[6.4, 3.2, 4.5, 1.5], [5.8, 3.1, 5.0, 1.7]], dtype=float)
#y = classifier.predict(new_samples)
#print('Predictions: {}'.format(str(y)))

它是在tensorflow中训练和创建DNN模型的代码。我已在本地测试并收到了结果。我将此代码放在名为trainer的文件夹中，并附带 init .py文件，并将该文件夹上传到gs：// bucket-ml / second_job / trainer。 Second_job是JOB_NAME。

然后，当我想将此作为作业提交时，我这样做并收到以下错误：

gcloud beta ml jobs submit training ${JOB_NAME}  \ 
--package-path=trainer   \
--module-name=trainer.trainer   \
--staging-bucket="${TRAIN_BUCKET}"   \
--region=us-central1   \
--train_dir="${TRAIN_PATH}/train"

ERROR: (gcloud.beta.ml.jobs.submit.training) 
    Packaging of user python code failed with message:
      running sdist
running egg_info
creating trainer.egg-info
writing trainer.egg-info/PKG-INFO
writing top-level names to trainer.egg-info/top_level.txt
writing dependency_links to trainer.egg-info/dependency_links.txt
writing manifest file 'trainer.egg-info/SOURCES.txt'
error: package directory 'trainer' does not exist
    Try manually writing a setup.py file at your package root
    and rerunning the command

我不确定package-path和module-name是否正确。请告诉我该怎么做。谢谢的问候，

Answer 1

gcloud命令的--package-path参数应指向一个有效Python包的目录，即包含__init__.py文件的目录（通常是空文件）。请注意，它应该是本地目录，而不是GCS上的目录。

--module参数将是该包中有效Python模块的完全限定名称。您可以根据需要组织目录，但为了保持一致性，样本都有一个名为trainer的Python包，其中包含名为task.py的模块。

示例的目录结构如下所示：

trainer/
  __init__.py
  task.py

__init__.py可能是一个空文件。 task.py包含您的代码。然后你可以按如下方式提交你的工作：

gcloud beta ml jobs submit training ${JOB_NAME}  \ 
  --package-path=trainer   \
  --module-name=trainer.task   \
  --staging-bucket="${TRAIN_BUCKET}"   \
  --region=us-central1   \
  -- \
  --train_dir="${TRAIN_PATH}/train"

您可以为包和模块选择所需的名称，只需确保磁盘上的名称和gcloud参数匹配：顶级目录为--package-path，运行代码的文件为{ {1}}（没有--module后缀）。

一些注意事项：

请注意额外的＆＃39; - \＆＃39;。这表明所有后续参数都应传递给您的程序。也就是说， - train_dir不是gcloud beta ml作业提交培训的参数，并将作为标志传递给您的程序
如果您打算使用train_dir，则需要在代码中添加一些标记解析，例如，使用argparse。
您在云端阅读的文件需要在GCS上。
尽管标记解析为您提供了更大的灵活性，但并不是必需的。您可以硬编码文件名的路径。只需确保它们指向GCS上的对象（然后从gcloud调用中删除.py）

向Google Cloud ML提交培训工作

1 个答案: