有没有办法从粘合作业生成单个csv输出文件?

时间:2019-04-09 07:33:29

标签: apache-spark pyspark aws-glue

如标题所示。我想我记得那是胶水作业生成单个csv输出文件而不是多个csv输出文件的某种选择,这特定于某些胶水配置,并且独立于任何与Apache Spark相关的功能。要实现此目的,pyspark文件中需要进行哪些设置更改?感谢提前登录

1 个答案:

答案 0 :(得分:0)

您可以使用DynamicFrameWriter类中的选项(下面的示例片段)指定要写入的格式

glue_context.write_dynamic_frame.from_options(
   connection_options = {"path": "$outpath", "partitionKeys": ["type"]},
   format = "csv")

您可以找到受支持的格式列表here

PS:代码段基于python API,但是如果您使用的是scala API,那么它也应该类似