如何从群集中的HDFS激发数据?
块如何转换为RDD?
让我们说我有3个节点群集,并且我有一个名为log.txt的文件,该文件分为3个块。所有3个节点每个块都有一个。
如何通过spark加载log.txt,以及如何将其转换为RDD?
答案 0 :(得分:0)
Spark与任何HDFS客户端没有什么不同。
联系名称节点获取文件,它返回块的位置,然后HDFS客户端将从数据节点获取块。
块不会“转换为” RDD,而RDD只是应用于从InputSplit
的{{1}}形成的Hadoop InputFormat
上的元数据。 RDD是惰性计算的,因此它们不代表数据的传输或转换