我刚刚开始使用Apache Spark。我正在使用群集模式,我想处理一个大文件。我使用SparkContext中的textFile方法,它将读取所有节点上可用的本地文件系统。 由于我的文件非常大,因此在每个群集节点中复制和粘贴都很麻烦。我的问题是:有没有办法让这个文件在一个像共享文件夹这样的独特位置? 非常感谢
答案 0 :(得分:2)
您可以将文件保存在NSData
或Hadoop
中。
然后,您可以使用S3
方法本身提供文件的路径。
for s3:
textFile
for hadoop:
val data = sc.textFile("s3n://yourAccessKey:yourSecretKey@/path/")