Question

我目前正在尝试导入包含约7300张图像的单标签数据集。我使用以下格式的单个CSV文件从（缩短的路径）创建数据集：

gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
[...]

但是，导入过程在处理了7多个小时后（根据以前的经验，我发现这个过程异常长）失败，并出现以下错误：

File unreadable or invalid gs://[...]

奇怪的是：文件在那里，我能够在我的机器上下载并查看它们。一旦我从CSV中删除了除两个“不可读或无效”条目之外的所有条目并导入了此CSV文件（相同存储桶），它就像一个超级按钮，只用了几秒钟。

另一个具有500张其他图像的数据集也导致了同样的奇怪行为。

之前，我已经导入并训练了一些AutoML Vision模型，但我不知道这次出了什么问题。任何想法或调试技巧表示赞赏。 GCP项目是“ its-2018-40128940-automl-vis”。

谢谢！

Answer 1

当无法从GCS访问文件（由于文件大小或权限而无法读取）或文件格式被视为无效时，将返回文件不可读或无效的文件。例如，图像的格式与使用的扩展名不同或image service不支持的格式。

发生错误时，管道可能会变慢，因为当前它会以指数补偿的方式重试。它会尝试检测不可重试的错误并快速失败-但如果不确定，则会重试。

最好是确保图像格式正确-例如，通过将图像重新转换为支持的格式之一。取决于您的平台，有一些工具可以做到这一点。

Answer 2

当我通过GCP存储界面中的上载检查文件时

要与之匹配，我们必须以以下配置上传文件，

storage.bucket(bucketName).upload(`./${csv_file}`, {
    // Support for HTTP requests made with `Accept-Encoding: gzip`
    destination: `csv/${csv_file}`,
    gzip: false,
    metadata: {

    },
});

AutoML Vision：数据集导入需要很长时间，最终会失败

2 个答案: