Spark中的本地磁盘配置

时间:2017-08-11 01:15:15

标签: apache-spark

官方Spark文档状态:

  

虽然Spark可以在内存中执行大量计算,但它仍然存在   使用本地磁盘来存储不适合RAM的数据,以及   保持阶段之间的中间输出。我们建议4-8   每个节点的磁盘,没有配置RAID(就像单独安装一样)   点)。在Linux中,使用noatime选项安装磁盘以进行reduce   不必要的写作在Spark中,配置spark.local.dir变量   是一个以逗号分隔的本地磁盘列表。如果你在跑   HDFS,可以使用与HDFS相同的磁盘。

  • 我想知道每个节点4-8的目的是什么

用于并行写入吗?由于没有解释,我不确定理解原因。

  • 我对此毫无头绪:"如果您正在运行HDFS,则可以使用 与HDFS相同的磁盘"。

知道这里的含义......

1 个答案:

答案 0 :(得分:1)

使用目的4-8 RAID磁盘镜像分区,增加冗余以防止硬件级别出现故障时数据丢失。在HDFS的情况下,不需要RAID提供的冗余,因为HDFS通过节点之间的复制来处理它。 Reference