Question

我刚刚开始使用Apache Spark。我正在使用群集模式，我想处理一个大文件。我使用SparkContext中的textFile方法，它将读取所有节点上可用的本地文件系统。由于我的文件非常大，因此在每个群集节点中复制和粘贴都很麻烦。我的问题是：有没有办法让这个文件在一个像共享文件夹这样的独特位置？非常感谢

Answer 1

您可以将文件保存在NSData或Hadoop中。然后，您可以使用S3方法本身提供文件的路径。

for s3：

textFile

for hadoop：

val data = sc.textFile("s3n://yourAccessKey:yourSecretKey@/path/")

本地文件和群集模式

1 个答案: