标签: hadoop apache-spark hdfs
我使用名为A B C的三台计算机部署了一个spark群集,并且在这三台计算机上也部署了一个HDFS群集。
当我在A或B或C机器上使用hdfs作为输入提交spark任务时,只有一台机器正在运行。它看起来像下面这样:
但是当我向其他机器提交相同的火花任务时,所有三台机器都在运行。它看起来像下面这样:
我已经在hdfs-site.xml中将dfs.replication设置为3,因此这三台机器都应该具有输入文件的完整数据。为什么只有一台机器运行spark任务?
dfs.replication