如何从HDFS火花加载文件及其与RDD的关系

时间:2018-09-23 14:34:42

标签: apache-spark hadoop

如何从群集中的HDFS激发数据?
块如何转换为RDD?

让我们说我有3个节点群集,并且我有一个名为log.txt的文件,该文件分为3个块。所有3个节点每个块都有一个。

如何通过spark加载log.txt,以及如何将其转换为RDD?

1 个答案:

答案 0 :(得分:0)

Spark与任何HDFS客户端没有什么不同。

联系名称节点获取文件,它返回块的位置,然后HDFS客户端将从数据节点获取块。

块不会“转换为” RDD,而RDD只是应用于从InputSplit的{​​{1}}形成的Hadoop InputFormat上的元数据。 RDD是惰性计算的,因此它们不代表数据的传输或转换