Cloud ML可以高效地从Google Storage中读取大量图像

时间:2018-06-13 16:25:28

标签: machine-learning io google-cloud-storage google-cloud-ml

我想使用Keras在40 GB图像的数据集上训练模型,并且我试图尽可能高效地读取这些图像。

在本地下载它们不是一种选择。 Tensorflow的file_io.FileIO()是立即读取还是以某种方式缓存其结果?

有替代品吗?

1 个答案:

答案 0 :(得分:1)

TensorFlow的GCS文件系统实现确实有一个可以配置的块级缓存,但对于您的用例,建议将图像预处理为TFRecord文件(来自Google搜索的random link)。来自GCS的小读取通常会导致吞吐量不佳。