pyspark中的AWS胶粘ETL作业可根据年列将1个CSV文件拆分为多个CSV文件

时间:2019-11-25 10:20:27

标签: amazon-s3 pyspark aws-glue

我在S3存储桶中有一个CSV文件,并且CSV文件中的一列是年份(1961、1962,...,2017)。 我需要编写一个胶粘ETL作业,以便将CSV拆分为多个文件并分成多个S3子文件夹。

数据示例:

Name | year
-----------
aaa  | 2017
BBB  | 2018
Ccc  | 2017
Ddd  | 2018

输出应为:

    存储桶子文件夹名称的1个子文件夹中的
  • 第一个csv文件应为年份编号,例如s3://data_bucket/2017/2017.csv

    Name | year
    -----------
    BBB  | 2018
    Ddd | 2018
    
  • 存储桶第二个子文件夹中的
  • 第二个csv文件。子文件夹名称应为年份编号,例如s3://data_bucket/2018/2018.csv

    Name | year
    -----------
    aaa  | 2017
    Ddd  | 201
    

我有大约500,000条超过55年的记录

0 个答案:

没有答案