标签: apache-spark google-cloud-dataproc
我有一个GCS存储,数据分区如下:年/月/日加上Dataproc Cluster,在30个worker中有89个执行器,每个执行器有24g内存。
问题是,当我想在2016/5 / *
不知何故,只有1名工作者使用内存的工作者是21g。
另外29名工人闲置,另一名工人试图加载大量镶木地板文件。
是否有任何技术可以读取可以使用30名工人的镶木地板文件?因为1名工人读取镶木地板,听起来像是瓶颈。