apache-spark - 尽管有20个节点集群，Spark仅运行8个任务，并且仅使用2个节点，因此我们正在为此任务使用动态分配

时间：2019-06-07 09:07:56

标签： apache-spark pyspark apache-spark-sql parquet

我们正在使用Spark进行转换，即join，groupBy等有两个数据集1.大数据集（20gb）2.小数据集（250mb）在加入它们的同时将它们缓存起来，对于小型数据集来说可以很好地承担8个任务，对于大型数据集来说可以承担8个任务并使用2个节点，而我有20个群集的节点。

添加了spark.default.parallelism属性，但没有用：我想这仅适用于rdd

没有答案