Question

我们正在考虑在项目上使用Spark结构化流。输入和输出是S3存储桶上的实木复合地板文件。是否可以通过某种方式控制输出文件的大小？我们的目标是输出文件大小为10-100MB。据我了解，在传统的批处理方法中，我们可以通过根据输入数据集的大小调整分区数量来确定输出文件的大小，在结构化流中是否有类似的可能？

Answer 1

在Spark 2.2或更高版本中，最佳选择是设置spark.sql.files.maxRecordsPerFile

spark.conf.set("spark.sql.files.maxRecordsPerFile", n)

已调整n的位置以反映行的平均大小。

请参见

SPARK-18775-限制每个文件写入的最大记录数。
apache/spark@354e936187708a404c0349e3d8815a47953123ec

如何在Spark结构化流中控制输出文件的大小

1 个答案: