如何在SparkSQL中合并小文件?

时间:2018-10-11 00:24:07

标签: apache-spark apache-spark-sql

我正在使用SparkSQL运行Spark应用程序。如何合并小文件?我了解.repartition.coalesce,但是使用SparkSQL无法做到这一点。

1 个答案:

答案 0 :(得分:0)

DeepSense工程博客的摘录(2016)

  

分发和 cluster by 子句在SparkSQL中确实很酷。不幸的是,这个问题仍然相对   大多数用户都不知道
...

     

SET spark.sql.shuffle.partitions = 2
  SELECT * FROM df DISTRIBUTE BY key

     

等效于DataFrame API:
df.repartition($"key", 2)

     

...


注意:我无法证明它能像宣传的那样工作;当我找到该博客时,它看起来非常有前途,但是自:-/

起,它就一直在我的待办事项清单上