我使用了mongodb spark连接器从mongodb生成了一个数据帧
val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100)
这是一个很大的集合,所以我将行限制为100。
当我使用
时df1.show()
但是当我使用
时df1.count
看到第一排df1
结果为enter image description here
太慢了。
有人可以给我一些建议吗?
答案 0 :(得分:0)
我认为你应该尝试调整spark.sql.shuffle.partitions配置。你可能是非常小的数据但是你创建了太多的分区,默认情况下它是200 see this for info