rdd.saveAsTextFile()将输出文件保存在数据备注上吗?

时间:2015-11-09 08:38:02

标签: apache-spark hdfs

当我调用rdd.saveAsTextFile("hdfs file path")时,它会创建多个部分文件作为输出。

每个零件文件是否可以在不同的数据节点上使用,或者所有零件文件在namenode中是否可用?

如果零件文件在不同的数据节点上可用,它是否意味着我为所有数据节点提供了saveAsTextFile()方法所传递的路径..右边。

1 个答案:

答案 0 :(得分:1)

这是一个HDFS问题,你生成这个文件并使用Spark在HDFS上编写它是偶然的。

该文件的每个部分都可用到任何HDFS客户端,无论该客户端是否位于群集的其中一台计算机上。文件将存储在您的数据节点上,每个文件中都包含一个部分。