hdfs:在sparkR shell中读取parquetfile时没有这样的文件或目录错误

时间:2015-07-20 07:58:59

标签: hadoop apache-spark hdfs yarn sparkr

我想从hdfs系统中读取sparkR shell中的parquetFile。所以我这样做:

./sparkR --master yarn-client

 sqlContext <- sparkRSQL.init(sc)
 path<-"hdfs://year=2015/month=1/day=9"
 AppDF <- parquetFile(sqlContext, path)

错误:No such file or directory

但是这个文件确实存在于hdfs系统中。当我将这段代码包装在像dataframe.R这样的R文件中并运行./spark-submit --master yarn ~/dataframe.R 1000时。它运作良好。所以我认为问题是通过sparkR shell在yarn-client上运行。任何人都可以帮忙解决这个问题吗?

我正在使用spark-1.4.0-bin-hadoop2.6

1 个答案:

答案 0 :(得分:0)

我不确定这可能会有所帮助。您可能需要添加完整路径,包括defaultFS的主机名和端口,如

path<-"hdfs://localhost:9000/year=2015/month=1/day=9"