apache-spark - 如何从HDFS火花加载文件及其与RDD的关系 - Thinbug

如何从HDFS火花加载文件及其与RDD的关系

时间：2018-09-23 14:34:42

标签： apache-spark hadoop

如何从群集中的HDFS激发数据？
块如何转换为RDD？

让我们说我有3个节点群集，并且我有一个名为log.txt的文件，该文件分为3个块。所有3个节点每个块都有一个。

如何通过spark加载log.txt，以及如何将其转换为RDD？

1 个答案:

答案 0 :(得分：0)

Spark与任何HDFS客户端没有什么不同。

联系名称节点获取文件，它返回块的位置，然后HDFS客户端将从数据节点获取块。

块不会“转换为” RDD，而RDD只是应用于从InputSplit的{{1}}形成的Hadoop InputFormat上的元数据。 RDD是惰性计算的，因此它们不代表数据的传输或转换