Question

我使用了mongodb spark连接器从mongodb生成了一个数据帧

val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100)

这是一个很大的集合，所以我将行限制为100。

当我使用

时

df1.show（）

它运作得很快。

但是当我使用

时

df1.count

看到第一排df1

太慢了。

有人可以给我一些建议吗？

Answer 1

我认为你应该尝试调整spark.sql.shuffle.partitions配置。你可能是非常小的数据但是你创建了太多的分区，默认情况下它是200 see this for info