我在S3存储桶中有一个CSV文件,并且CSV文件中的一列是年份(1961、1962,...,2017)。 我需要编写一个胶粘ETL作业,以便将CSV拆分为多个文件并分成多个S3子文件夹。
数据示例:
Name | year
-----------
aaa | 2017
BBB | 2018
Ccc | 2017
Ddd | 2018
输出应为:
第一个csv文件应为年份编号,例如s3://data_bucket/2017/2017.csv
Name | year
-----------
BBB | 2018
Ddd | 2018
第二个csv文件。子文件夹名称应为年份编号,例如s3://data_bucket/2018/2018.csv
Name | year
-----------
aaa | 2017
Ddd | 201
我有大约500,000条超过55年的记录