应用错误收集

当火花读取许多Parquet文件时，工作者没有使用

时间：2018-02-02 12:42:37

标签： apache-spark google-cloud-dataproc

我有一个GCS存储，数据分区如下：年/月/日加上Dataproc Cluster，在30个worker中有89个执行器，每个执行器有24g内存。

问题是，当我想在2016/5 / *

上阅读镶木地板文件时

不知何故，只有1名工作者使用内存的工作者是21g。

另外29名工人闲置，另一名工人试图加载大量镶木地板文件。

是否有任何技术可以读取可以使用30名工人的镶木地板文件？因为1名工人读取镶木地板，听起来像是瓶颈。

0 个答案:

没有答案