尽管有20个节点集群,Spark仅运行8个任务,并且仅使用2个节点,因此我们正在为此任务使用动态分配

时间:2019-06-07 09:07:56

标签: apache-spark pyspark apache-spark-sql parquet

我们正在使用Spark进行转换,即join,groupBy等 有两个数据集1.大数据集(20gb)2.小数据集(250mb)在加入它们的同时将它们缓存起来,对于小型数据集来说可以很好地承担8个任务,对于大型数据集来说可以承担8个任务并使用2个节点,而我有20个群集的节点。

添加了spark.default.parallelism属性,但没有用:我想这仅适用于rdd

spark ui image

0 个答案:

没有答案