标签: amazon-web-services amazon-s3 etl
我在一个S3存储桶中大约有50 TB的数据,该存储桶没有任何分区。这些文件是json文件,每个文件的大小约为100KB。
我需要对该数据进行分区,并将其放入另一个s3存储桶中,以将其存储在yyyy / mm / dd / filename.json的结构中,或者向文件添加自定义元数据字段,这是原始的lastmodifieddate在文件本身上,然后将其移至其他存储桶。
我研究了
我是否可能会选择一个明显的选择,或者有更好的选择呢?