使用Spark with HDFS时,哪种方式适用于HDFS设置?

时间:2017-02-22 06:39:08

标签: apache-spark hdfs

  1. 将Spark驱动程序节点设置为 HDFS 主节点,将Spark工作节点设置为 HDFS 从属节点。
    1. 仅使用Spark工作线程节点来设置 HDFS 群集。 HDFS 主节点包含在这些工作节点
    2. p.s:我知道 HDFS 和Spark是独立的部分,但是在给定有限数量的节点时,可以有一种在Spark上测试应用程序性能的首选方法吗?那么,基本上,我们应该避免Spark驱动程序节点上的I / O开销吗?

1 个答案:

答案 0 :(得分:0)

HDFS群集可从驱动程序节点访问,因此第一个选项更有意义。

性能测试的设置主要取决于预期的应用程序工作负载,节点上可用的内存和其他参数,但如果在驱动程序上运行的应用程序部分没有进行任何升沉处理,那么放置它可能是有意义的。在那里命名节点。