当我调用rdd.saveAsTextFile("hdfs file path")
时,它会创建多个部分文件作为输出。
每个零件文件是否可以在不同的数据节点上使用,或者所有零件文件在namenode中是否可用?
如果零件文件在不同的数据节点上可用,它是否意味着我为所有数据节点提供了saveAsTextFile()方法所传递的路径..右边。
答案 0 :(得分:1)
这是一个HDFS问题,你生成这个文件并使用Spark在HDFS上编写它是偶然的。
该文件的每个部分都可用到任何HDFS客户端,无论该客户端是否位于群集的其中一台计算机上。文件将存储在您的数据节点上,每个文件中都包含一个部分。