我开发了一个unix shell脚本,它将文件从GCS下载到我的服务器上。我正在使用该命令并且它工作得很好。
python gsutil -m cp -R gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath
我正在下载的所有文件的总大小为30GB。 我通过在.boto文件中设置state_dir来在服务器上的特定位置创建跟踪器文件。
我想构建重试机制,以便如果某些下载没有完成,那么只能下载那些在之前的运行中失败或未下载的文件而不是重新启动。
请咨询
答案 0 :(得分:1)
您可以使用cp的清单文件功能来执行此操作:
python gsutil -m cp -R -L manifest.log gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath
您执行的每个唯一cp命令都需要一个单独的清单文件。看看" -L" gsutil help cp中的选项文档以获取详细信息。