当火花读取许多Parquet文件时,工作者没有使用

时间:2018-02-02 12:42:37

标签: apache-spark google-cloud-dataproc

我有一个GCS存储,数据分区如下:年/月/日加上Dataproc Cluster,在30个worker中有89个执行器,每个执行器有24g内存。

问题是,当我想在2016/5 / *

上阅读镶木地板文件时

不知何故,只有1名工作者使用内存的工作者是21g。

另外29名工人闲置,另一名工人试图加载大量镶木地板文件。

是否有任何技术可以读取可以使用30名工人的镶木地板文件?因为1名工人读取镶木地板,听起来像是瓶颈。

0 个答案:

没有答案