我目前正在尝试导入包含约7300张图像的单标签数据集。我使用以下格式的单个CSV文件从(缩短的路径)创建数据集:
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
[...]
但是,导入过程在处理了7多个小时后(根据以前的经验,我发现这个过程异常长)失败,并出现以下错误:
File unreadable or invalid gs://[...]
奇怪的是:文件在那里,我能够在我的机器上下载并查看它们。一旦我从CSV中删除了除两个“不可读或无效”条目之外的所有条目并导入了此CSV文件(相同存储桶),它就像一个超级按钮,只用了几秒钟。
另一个具有500张其他图像的数据集也导致了同样的奇怪行为。
之前,我已经导入并训练了一些AutoML Vision模型,但我不知道这次出了什么问题。任何想法或调试技巧表示赞赏。 GCP项目是“ its-2018-40128940-automl-vis”。
谢谢!
答案 0 :(得分:0)
当无法从GCS访问文件(由于文件大小或权限而无法读取)或文件格式被视为无效时,将返回文件不可读或无效的文件。例如,图像的格式与使用的扩展名不同或image service不支持的格式。
发生错误时,管道可能会变慢,因为当前它会以指数补偿的方式重试。它会尝试检测不可重试的错误并快速失败-但如果不确定,则会重试。
最好是确保图像格式正确-例如,通过将图像重新转换为支持的格式之一。 取决于您的平台,有一些工具可以做到这一点。
答案 1 :(得分:0)