标签: apache-spark pyspark apache-spark-sql parquet
我们正在使用Spark进行转换,即join,groupBy等 有两个数据集1.大数据集(20gb)2.小数据集(250mb)在加入它们的同时将它们缓存起来,对于小型数据集来说可以很好地承担8个任务,对于大型数据集来说可以承担8个任务并使用2个节点,而我有20个群集的节点。
添加了spark.default.parallelism属性,但没有用:我想这仅适用于rdd