我正在使用SparkSQL运行Spark应用程序。如何合并小文件?我了解.repartition
和.coalesce
,但是使用SparkSQL无法做到这一点。
答案 0 :(得分:0)
DeepSense工程博客的摘录(2016)
由 分发和 cluster by 子句在SparkSQL中确实很酷。不幸的是,这个问题仍然相对 大多数用户都不知道
...
SET spark.sql.shuffle.partitions = 2
SELECT * FROM df DISTRIBUTE BY key
等效于DataFrame API:
df.repartition($"key", 2)
...
注意:我无法证明它能像宣传的那样工作;当我找到该博客时,它看起来非常有前途,但是自:-/