当某些分区在冰川上时,s3上的分区数据上的火花刷新失败

时间:2019-04-03 04:13:17

标签: apache-spark amazon-s3 amazon-data-pipeline amazon-glacier

  1. / mnt / mys3 / ds = date1标准
  2. / mnt / mys3 / ds = date2。标准

刷新表:效果很好

但是,当我将其中一个分区移至s3冰川

  1. / mnt / mys3 / ds = date1冰川
  2. / mnt / mys3 / ds = date2。标准

刷新表引发异常 java.io.IOException:com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:该操作对于对象的存储类无效(服务:Amazon S3;状态码:403;错误代码:InvalidObjectState;请求ID:C444D508B6GJAG897)

随着Amazon引入s3冰川(深冰川),这是创建生命周期规则以将足够多的旧数据移至s3冰川的非常常见的用例。

但是,到今天为止,这中断了数据管道。

我只能想到的另一种解决方案是将数据复制到单独的文件夹,然后从当前存储库中将其删除。但这听起来很破旧。

0 个答案:

没有答案