AWS Glue作业-CSV到木地板。如何忽略标题?

时间:2019-12-03 09:27:05

标签: csv parquet aws-glue

我需要将一堆(23)CSV文件(源s3)转换为镶木地板格式。输入的CSV在所有文件中都包含标题。当我使用Glue为它生成代码时。输出在单独的行中也包含22个标题行,这意味着它忽略了第一个标题。在进行此转换时,我需要帮助忽略所有标头。

由于我正在使用from_catalog函数进行输入,因此我没有任何format_options可以忽略标题行。

还可以在Glue表中设置文件中存在标题的选项吗?当我的工作运行时,会自动忽略标题吗?

下面是我目前的做法的一部分。我是胶水新手。这段代码实际上是由Glue自动生成的。

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "my_datalake", table_name = "my-csv-files", transformation_ctx = "datasource0")

datasink1 = glueContext.write_dynamic_frame.from_options(frame = datasource0, connection_type = "s3", connection_options = {"path": "s3://my-bucket-name/full/s3/path-parquet"}, format = "parquet", transformation_ctx = "datasink1")

0 个答案:

没有答案