在mongodb spark connector生成的数据帧上,spark工作得太慢了

时间:2017-02-24 10:27:54

标签: spark-dataframe

我使用了mongodb spark连接器从mongodb生成了一个数据帧

val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100)

这是一个很大的集合,所以我将行限制为100。

当我使用

  

df1.show()

它运作得很快。

但是当我使用

df1.count

看到第一排df1

结果为enter image description here

太慢了。

有人可以给我一些建议吗?

1 个答案:

答案 0 :(得分:0)

我认为你应该尝试调整spark.sql.shuffle.partitions配置。你可能是非常小的数据但是你创建了太多的分区,默认情况下它是200 see this for info