Apache Spark:非分布式文件系统与分布式文件系统

时间:2019-03-11 07:31:03

标签: apache-spark

我一直试图在3个节点的集群上运行Spark作业。每个工作程序(节点)具有10 GB RAM和4个CPU内核。 Spark作业由一个数据集的多个联接组成。

我面临的问题是,我认为这项工作需要太多时间才能完成。当我查看Spark UI页面以获取更多信息时,我注意到对于随机操作,只有一个节点承担了大部分工作负载,而其余集群几乎都处于空闲状态。

我认为,导致瓶颈的问题之一是我没有在集群上设置分布式文件系统(HDFS),并且由于这个节点无法由其他节点访问缓存的数据,导致降低性能。

您认为可能是瓶颈问题吗?

0 个答案:

没有答案