我需要将一堆(23)CSV文件(源s3)转换为镶木地板格式。输入的CSV在所有文件中都包含标题。当我使用Glue为它生成代码时。输出在单独的行中也包含22个标题行,这意味着它忽略了第一个标题。在进行此转换时,我需要帮助忽略所有标头。
由于我正在使用from_catalog
函数进行输入,因此我没有任何format_options
可以忽略标题行。
还可以在Glue表中设置文件中存在标题的选项吗?当我的工作运行时,会自动忽略标题吗?
下面是我目前的做法的一部分。我是胶水新手。这段代码实际上是由Glue自动生成的。
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "my_datalake", table_name = "my-csv-files", transformation_ctx = "datasource0")
datasink1 = glueContext.write_dynamic_frame.from_options(frame = datasource0, connection_type = "s3", connection_options = {"path": "s3://my-bucket-name/full/s3/path-parquet"}, format = "parquet", transformation_ctx = "datasink1")