官方Spark文档状态:
虽然Spark可以在内存中执行大量计算,但它仍然存在 使用本地磁盘来存储不适合RAM的数据,以及 保持阶段之间的中间输出。我们建议4-8 每个节点的磁盘,没有配置RAID(就像单独安装一样) 点)。在Linux中,使用noatime选项安装磁盘以进行reduce 不必要的写作在Spark中,配置spark.local.dir变量 是一个以逗号分隔的本地磁盘列表。如果你在跑 HDFS,可以使用与HDFS相同的磁盘。
用于并行写入吗?由于没有解释,我不确定理解原因。
知道这里的含义......
答案 0 :(得分:1)
使用目的4-8 RAID磁盘镜像分区,增加冗余以防止硬件级别出现故障时数据丢失。在HDFS的情况下,不需要RAID提供的冗余,因为HDFS通过节点之间的复制来处理它。 Reference