GSUTIL CP文件延迟

时间:2015-05-19 23:39:54

标签: google-cloud-storage

我使用Google云中的GSUTIL命令行工具将文件从一个GCS文件夹复制到另一个GCS文件夹,然后进行一些数据处理。最近我在最终目标(BQ表)中发现了一些数据丢失,当深挖我发现问题是围绕文件复制时,当我复制大量文件时,3K~5K e,g,似乎有些文件没有被复制及时到目标文件夹并开始数据处理,这些文件最终被复制但对数据处理来说太晚了,我该怎么做才能防止这种情况发生呢? GSUTIL命令行工具中的任何标志/配置,以确保副本完全完成?我一直在使用的命令: gsutil -m cp gs:// folder1 / * gs:// folder2 /

1 个答案:

答案 0 :(得分:1)

假设gsutil命令成功完成(退出状态0),文件应该全部被复制,但它们可能不会立即显示在桶列表中(GCS桶列表最终是一致的)。如果您的数据处理作业正在运行,请列出存储桶以查找要处理的文件,以解释您所看到的情况。为避免此问题,您可以生成复制的对象名称清单,并将其提供给数据处理作业,而不是依赖于存储桶列表。

(存储桶列表最终将显示所有文件,但您无法在上传文件后立即依赖它具有完整列表。)