适用于Cloud ML Engine的Keras ImageDataGenerator

时间:2018-01-09 17:59:57

标签: tensorflow neural-network keras gcloud

我需要训练一个由我存储在GCloud Storage上的一些原始图像提供的神经网络。为此,我使用Keras图像生成器的 flow_from_directory 方法查找存储上的所有图像及其相关标签。

training_data_directory = args.train_dir
testing_data_directory = args.eval_dir

training_gen = datagenerator.flow_from_directory(
                    training_data_directory,
                    target_size = (img_width, img_height),
                    batch_size = 32)

validation_gen = basic_datagen.flow_from_directory(
                    testing_data_directory,
                    target_size = (img_width, img_height),
                    batch_size = 32)

我的GCloud Storage架构如下:

brad-bucket / data / train
brad-bucket / data / eval

gsutil命令允许我确保我的文件夹存在。

brad$ gsutil ls gs://brad-bucket/data/
gs://brad-bucket/data/eval/
gs://brad-bucket/data/train/

所以这是我正在运行的脚本,用于启动ML Engine的培训,其中包含我用于目录路径的字符串(train_dir,eval_dir)。

BUCKET="gs://brad-bucket"
JOB_ID="training_"$(date +%s)
JOB_DIR="gs://brad-bucket/jobs/train_keras_"$(date +%s)
TRAIN_DIR="gs://brad-bucket/data/train/"
EVAL_DIR="gs://brad-bucket/data/eval/"
CONFIG_PATH="config/config.yaml"
PACKAGE="trainer"

gcloud ml-engine jobs submit training $JOB_ID \
                                    --stream-logs \
                                    --verbosity debug \
                                    --module-name trainer.task \
                                    --staging-bucket $BUCKET \
                                    --package-path $PACKAGE \
                                    --config $CONFIG_PATH \
                                    --region europe-west1 \
                                    -- \
                                    --job_dir $JOB_DIR \
                                    --train_dir $TRAIN_DIR \
                                    --eval_dir $EVAL_DIR \
                                    --dropout_one 0.2 \
                                    --dropout_two 0.2

虽然,我正在做的是抛出一个OSError。

ERROR   2018-01-10 09:41:47 +0100   service       File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/keras/_impl/keras/preprocessing/image.py", line 1086, in __init__
ERROR   2018-01-10 09:41:47 +0100   service         for subdir in sorted(os.listdir(directory)):
ERROR   2018-01-10 09:41:47 +0100   service     OSError: [Errno 2] No such file or directory: 'gs://brad-bucket/data/train/'

当我使用其他数据结构(以其他方式读取数据)时,一切正常,但是当我使用 flow_from_directory 来读取目录时和子目录我总是得到同样的错误。 是否可以使用此方法从云存储中检索数据,或者我是否必须以不同的方式提供数据?

3 个答案:

答案 0 :(得分:2)

如果检查source code,您会看到当Keras(或TF)尝试从您的目录构造类时出现错误。既然你给它一个GCS目录(gs://),这将不起作用。您可以通过自己提供类参数来绕过此错误,例如:通过以下方式:

def get_classes(file_dir):
    if not file_dir.startswith("gs://"):
      classes = [c.replace('/', '') for c in os.listdir(file_dir)]
    else:
      bucket_name = file_dir.replace('gs://', '').split('/')[0]
      prefix = file_dir.replace("gs://"+bucket_name+'/', '')
      if not prefix.endswith("/"):
          prefix += "/"

      client = storage.Client()
      bucket = client.get_bucket(bucket_name)

      iterator = bucket.list_blobs(delimiter="/", prefix=prefix)
      response = iterator.get_next_page_response()
      classes = [c.replace('/','') for c in response['prefixes']]

    return classes

将这些课程传递给flow_from_directory会解决您的错误,但它无法识别文件本身(我现在可以获得Found 0 images belonging to 2 classes.)。

唯一的'直接'我找到的解决方法是将文件复制到本地磁盘并从那里读取它们。有另一个解决方案会很棒(例如,在图像的情况下,复制可能需要很长时间)。

其他资源还建议在与Cloud ML Engine中的GCS交互时使用TensorFlow的file_io函数,但这需要您在这种情况下完全重写flow_from_directory

答案 1 :(得分:1)

除了dumkar的解决方案。 可以尝试使用Tensorflow的file_io来处理h5数据集。

with file_io.FileIO(os.path.join(data_dir, data_file_name), mode='r') as input_f:
        with file_io.FileIO('dataset.hdf5', mode='w+') as output_f:
                output_f.write(input_f.read())
dataset = h5py.File('dataset.hdf5', 'r')

这允许您拥有存储在GC存储桶中的文件的临时本地副本。 这是 aloisg 的一个很好的要点,它演示了如何从图像数据集创建h5文件:put it on here: https://app.box.com/file/284901357701

您现在可以从数据集中检索X_train,y_train,X_eval和y_eval,以便轻松地为keras模型提供信息。

答案 2 :(得分:0)

你现在的帖子很难帮到你。但是,检查您收到的错误我们可以看到它被os.listdir()抛出,因此它本身并不是Keras问题

这可能是由于你的目录不是绝对路径或者它不存在(可能是拼写错误或类似的)。如果您使用更多信息更新您的问题,我可以帮助您深入了解这一点。