是否可以从Google Cloud Storage Objects创建TFRecordDataset?

时间:2018-08-16 02:47:52

标签: python tensorflow google-cloud-platform google-cloud-storage google-cloud-datalab

我正在Google Cloud Datalab的Jupyter笔记本中测试Tensorflow模型。该模型被设置为使用TFRecordDataset个文件中的TFRecord作为输入,我认为这是为模型组织输入的推荐方式。我想知道是否存在从TFRecordDataset API提供的Google Cloud Storage Objects列表创建google.datalab.storage到某种支持的方式,作为访问Google Cloud存储桶中数据的一种方式。 / p>

编辑:我发现可以通过在.uri上调用Storage Objects并将这些uri传递给TFRecordDataset来实现,但是我不确定是否建议这样做

2 个答案:

答案 0 :(得分:0)

您的问题尚不清楚,但这是我如何将输入数据转换为tfrecord以便将其输入到模型中。

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/how_tos/reading_data/convert_to_records.py

您可以从Datalab的Google存储中读取数据,并将其转换为tfrecord,然后将其保存回Google存储中。

答案 1 :(得分:0)

通常,此类任务会设置 Google Cloud Storage 将数据(例如图像)存储在存储桶中,并且用户希望将输入转换为 tfrecord 格式以训练/微调模型(例如分类/检测)。对于这样的任务,您必须创建一个文件,其中包含有关图像路径和合适的其他信息(例如标签、bbox 等)的信息。创建该文件后,您可以迭代您的文件,并使用这些输入的谷歌存储路径文件访问 GCS 数据以对其进行处理并将其保存为 tfrecord。以流行的格式(用于图像数据的 COCO/Pascal VOC)创建文件很有用,因为您可以使用不易出错且速度更快的预制转换脚本。例如:COCO to TFrecord conversion