静止状态下的AWS 100 TB数据转换S3

时间:2019-07-08 08:26:40

标签: amazon-web-services amazon-s3 etl

我在一个S3存储桶中大约有50 TB的数据,该存储桶没有任何分区。这些文件是json文件,每个文件的大小约为100KB。

我需要对该数据进行分区,并将其放入另一个s3存储桶中,以将其存储在yyyy / mm / dd / filename.json的结构中,或者向文件添加自定义元数据字段,这是原始的lastmodifieddate在文件本身上,然后将其移至其他存储桶。

我研究了

之类的选项
  1. 使用spark集群执行此操作,将两个存储桶都安装为dbfs,然后进行转换并复制到目标存储桶。
  2. 我还尝试编写一个lambda函数,该函数可以对给定的文件执行相同的操作,然后从另一个程序调用它。 1000个文件大约需要15秒才能复制。
  3. 我还研究了生成s3清单并在其上运行作业,但是不能这么说来添加元数据或创建分区结构。

我是否可能会选择一个明显的选择,或者有更好的选择呢?

0 个答案:

没有答案