应用错误收集

Spark中的本地磁盘配置

时间：2017-08-11 01:15:15

标签： apache-spark

官方Spark文档状态：

虽然Spark可以在内存中执行大量计算，但它仍然存在使用本地磁盘来存储不适合RAM的数据，以及保持阶段之间的中间输出。我们建议4-8 每个节点的磁盘，没有配置RAID（就像单独安装一样）点）。在Linux中，使用noatime选项安装磁盘以进行reduce 不必要的写作在Spark中，配置spark.local.dir变量是一个以逗号分隔的本地磁盘列表。如果你在跑 HDFS，可以使用与HDFS相同的磁盘。

我想知道每个节点4-8的目的是什么

用于并行写入吗？由于没有解释，我不确定理解原因。

我对此毫无头绪：＆＃34;如果您正在运行HDFS，则可以使用与HDFS相同的磁盘＆＃34;。

知道这里的含义......

1 个答案:

答案 0 :(得分：1)

使用目的4-8 RAID磁盘镜像分区，增加冗余以防止硬件级别出现故障时数据丢失。在HDFS的情况下，不需要RAID提供的冗余，因为HDFS通过节点之间的复制来处理它。 Reference