如标题所示。我想我记得那是胶水作业生成单个csv输出文件而不是多个csv输出文件的某种选择,这特定于某些胶水配置,并且独立于任何与Apache Spark相关的功能。要实现此目的,pyspark文件中需要进行哪些设置更改?感谢提前登录
答案 0 :(得分:0)
您可以使用DynamicFrameWriter类中的选项(下面的示例片段)指定要写入的格式
glue_context.write_dynamic_frame.from_options(
connection_options = {"path": "$outpath", "partitionKeys": ["type"]},
format = "csv")
您可以找到受支持的格式列表here
PS:代码段基于python API,但是如果您使用的是scala API,那么它也应该类似