本地文件和群集模式

时间:2016-05-31 11:40:02

标签: apache-spark cluster-computing

我刚刚开始使用Apache Spark。我正在使用群集模式,我想处理一个大文件。我使用SparkContext中的textFile方法,它将读取所有节点上可用的本地文件系统。 由于我的文件非常大,因此在每个群集节点中复制和粘贴都很麻烦。我的问题是:有没有办法让这个文件在一个像共享文件夹这样的独特位置? 非常感谢

1 个答案:

答案 0 :(得分:2)

您可以将文件保存在NSDataHadoop中。 然后,您可以使用S3方法本身提供文件的路径。

for s3:

textFile

for hadoop:

val data = sc.textFile("s3n://yourAccessKey:yourSecretKey@/path/")