应用错误收集

如何在SparkSQL中合并小文件？

时间：2018-10-11 00:24:07

标签： apache-spark apache-spark-sql

我正在使用SparkSQL运行Spark应用程序。如何合并小文件？我了解.repartition和.coalesce，但是使用SparkSQL无法做到这一点。

1 个答案:

答案 0 :(得分：0)

DeepSense工程博客的摘录（2016）

由分发和 cluster by 子句在SparkSQL中确实很酷。不幸的是，这个问题仍然相对   大多数用户都不知道
...

SET spark.sql.shuffle.partitions = 2
  SELECT * FROM df DISTRIBUTE BY key

等效于DataFrame API：
df.repartition($"key", 2)

...

注意：我无法证明它能像宣传的那样工作；当我找到该博客时，它看起来非常有前途，但是自:-/

起，它就一直在我的待办事项清单上