标签: apache-spark-sql aws-glue
在本文档中:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-programming-etl-format-parquet
它提到:“基础SparkSQL代码接受的任何选项都可以通过connection_options映射参数传递给它。”
但是,我如何找出这些选项呢?胶水代码和SparkQL代码之间没有明确的映射。
(具体地说,我想弄清楚如何控制生成的实木复合地板文件的大小)
答案 0 :(得分:1)
DataFrameWriter
SparkSQL选项。用于写入parquet的数据源似乎仅带有compression参数。有关读取数据时的SparkSQL选项,请查看DataFrameReader类。
parquet
compression
DataFrameReader
要控制输出文件的大小,您应该使用coalesc函数,以并行方式播放-如@Yuri Bondaruk注释的内容。
coalesc