com.amazonaws.services.glue.writeDynamicFrame的SparkQL选项是什么?

时间:2018-06-29 22:59:47

标签: apache-spark-sql aws-glue

在本文档中:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-programming-etl-format-parquet

它提到:“基础SparkSQL代码接受的任何选项都可以通过connection_options映射参数传递给它。”

但是,我如何找出这些选项呢?胶水代码和SparkQL代码之间没有明确的映射。

(具体地说,我想弄清楚如何控制生成的实木复合地板文件的大小)

1 个答案:

答案 0 :(得分:1)

可以在DataFrameWriter文档(在Scalapyspark文档中)查找各种数据源的

SparkSQL选项。用于写入parquet的数据源似乎仅带有compression参数。有关读取数据时的SparkSQL选项,请查看DataFrameReader类。

要控制输出文件的大小,您应该使用coalesc函数,以并行方式播放-如@Yuri Bondaruk注释的内容。