应用错误收集

Spark RDD和HDFS'数据块之间的区别

时间：2018-01-31 20:50:37

标签： hadoop apache-spark hdfs rdd

请帮助我理解HDFS'数据块与Spark中的RDD之间的区别。 HDFS将数据集分发到群集中的多个节点，因为具有相同大小的块和数据块将被复制多次并存储。 RDD创建为并行集合。 Parallelized集合的元素是否跨节点分布，还是存储在内存中进行处理？与HDFS的数据块有什么关系吗？

1 个答案:

答案 0 :(得分：2)

与HDFS'数据块有关系吗？

一般不是。它们解决了不同的问题

RDD是关于分配计算和处理计算失败的。
HDFS是关于分配存储和处理存储故障。

分布是常见的分母，但就是这样，故障处理策略明显不同（分别是DAG重新计算和复制）。

Spark可以使用Hadoop输入格式，并从HDFS读取数据。在这种情况下，HDFS块和Spark拆分之间会存在关系。但Spark不需要HDFS，新API的许多组件不再使用Hadoop输入格式。