AutoML Vision:数据集导入需要很长时间,最终会失败

时间:2018-08-29 14:45:33

标签: google-cloud-automl

我目前正在尝试导入包含约7300张图像的单标签数据集。我使用以下格式的单个CSV文件从(缩短的路径)创建数据集:

gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
[...]

但是,导入过程在处理了7多个小时后(根据以前的经验,我发现这个过程异常长)失败,并出现以下错误:

File unreadable or invalid gs://[...]

奇怪的是:文件在那里,我能够在我的机器上下载并查看它们。一旦我从CSV中删除了除两个“不可读或无效”条目之外的所有条目并导入了此CSV文件(相同存储桶),它就像一个超级按钮,只用了几秒钟。

另一个具有500张其他图像的数据集也导致了同样的奇怪行为。

之前,我已经导入并训练了一些AutoML Vision模型,但我不知道这次出了什么问题。任何想法或调试技巧表示赞赏。 GCP项目是“ its-2018-40128940-automl-vis”。

谢谢!

2 个答案:

答案 0 :(得分:0)

当无法从GCS访问文件(由于文件大小或权限而无法读取)或文件格式被视为无效时,将返回文件不可读或无效的文件。例如,图像的格式与使用的扩展名不同或image service不支持的格式。

发生错误时,管道可能会变慢,因为当前它会以指数补偿的方式重试。它会尝试检测不可重试的错误并快速失败-但如果不确定,则会重试。

最好是确保图像格式正确-例如,通过将图像重新转换为支持的格式之一。 取决于您的平台,有一些工具可以做到这一点。

答案 1 :(得分:0)

当我通过GCP存储界面中的上载检查文件时

enter image description here

要与之匹配,我们必须以以下配置上传文件,

storage.bucket(bucketName).upload(`./${csv_file}`, {
    // Support for HTTP requests made with `Accept-Encoding: gzip`
    destination: `csv/${csv_file}`,
    gzip: false,
    metadata: {

    },
});