使用镶木地板时,Spark上的活动任务数量下降

时间:2017-04-18 01:19:48

标签: apache-spark amazon-s3 emr parquet

我在EMR上运行Spark并从S3读取文件。当我读取JSON文件时,群集中活动任务的数量在整个作业期间保持很高。 E.g:

enter image description here

但是,如果我将文件类型更改为镶木地板(这是我更改的唯一内容),活动任务的数量会迅速崩溃,直到我在整个群集中只运行大约3个(即我只会结束)使用~3个节点。

我在尝试读取数据后尝试设置spark.default.parallelism并运行repartition。似乎没什么用。

这里出了什么问题?请注意,我的数据相对较小~150MB(如果重要的话)。

0 个答案:

没有答案