我们正在考虑在项目上使用Spark结构化流。输入和输出是S3存储桶上的实木复合地板文件。是否可以通过某种方式控制输出文件的大小?我们的目标是输出文件大小为10-100MB。 据我了解,在传统的批处理方法中,我们可以通过根据输入数据集的大小调整分区数量来确定输出文件的大小,在结构化流中是否有类似的可能?
答案 0 :(得分:0)
在Spark 2.2或更高版本中,最佳选择是设置spark.sql.files.maxRecordsPerFile
spark.conf.set("spark.sql.files.maxRecordsPerFile", n)
已调整n
的位置以反映行的平均大小。
请参见