Spark将本地目录添加到绝对路径

时间:2016-07-05 18:42:15

标签: windows apache-spark

我已经在群集模式下部署了简单的火花作业(spark 1.6,scala 2.10),这些作业读取和写入在Linux集群上运行的本地文件系统,但在尝试启动作业时遇到路径问题到运行Windows Server 2012的群集。

我尝试了各种路径组合(例如file:// C:/Users/file.txt,file:// C://Users//file.txt,file:/// C :/Users/file.txt,file:\ C:\ Users \ file.txt)没有成功。其中一个错误似乎是Spark将远程计算机上的本地路径预先设置为我希望群集使用的绝对路径。

即。 worker节点上的spark jar位于C:\ Users \ file.jar,但spark集群驱动程序的错误是" java.io.FileNotFoundException:C:\ Users \ remote_home \ file:\ C:\用户\管理员"

2 个答案:

答案 0 :(得分:2)

访问本地Windows目录路径的一种解决方法:您可以将.txt文件放在eclipse /src/../ ..文件夹中(例如src / test / resources),然后将程序中的路径替换为: / p>

JavaRDD<String> data1 = sc.textFile("C:/Users/XXX/XXX/src/test/resources/Text.txt");

答案 1 :(得分:0)

通过在路径中仅使用正斜杠(“/”)来解决,例如(文件:/// C:/Users/file.txt)