应用错误收集

pyspark中的AWS胶粘ETL作业可根据年列将1个CSV文件拆分为多个CSV文件

时间：2019-11-25 10:20:27

标签： amazon-s3 pyspark aws-glue

我在S3存储桶中有一个CSV文件，并且CSV文件中的一列是年份（1961、1962，...，2017）。我需要编写一个胶粘ETL作业，以便将CSV拆分为多个文件并分成多个S3子文件夹。

数据示例：

Name | year
-----------
aaa  | 2017
BBB  | 2018
Ccc  | 2017
Ddd  | 2018

输出应为：

第一个csv文件应为年份编号，例如s3://data_bucket/2017/2017.csv
```
Name | year
-----------
BBB  | 2018
Ddd | 2018
```
第二个csv文件。子文件夹名称应为年份编号，例如s3://data_bucket/2018/2018.csv
```
Name | year
-----------
aaa  | 2017
Ddd  | 201
```

我有大约500,000条超过55年的记录

0 个答案:

没有答案