Question

我正在尝试将Spark JavaRDD保存到HDFS。该过程成功运行但我没有看到文件保存在HDFS中。以下是我的代码。我在本地运行它。（直接从IntelliJ运行main（）方法。）

GET / 404 0.658 ms - 13
GET / 404 0.464 ms - 13
GET / 404 0.313 ms - 13
GET / 404 0.416 ms - 13
GET / 404 0.393 ms - 13
GET / 404 0.202 ms - 13
GET / 404 0.124 ms - 13
GET / 404 0.142 ms - 13

我在Spark 2.0和Hadoop 2.7.2上运行此代码。在我的hadoop中，core-site.xml配置为localhost：9000。我正在启动我的HDFS伪分布式集群，如hadoop文档中所述。

我在这里缺少什么？

Answer 1

尝试了saveAsSequenceFile？

看看这个

https://spark.apache.org/docs/1.0.0/api/java/org/apache/spark/rdd/SequenceFileRDDFunctions.html

感谢。

Answer 2

最后我能够解决这个问题。有2个问题

1）我使用的是Hadoop-2.7.2，我的java版本是jdk1.8。似乎只支持Hadoop2.0以后的JDK1.8。对于Hadoop-2.7，我需要JDK1.7。我将我的java版本改为1.7

2）Hadoop目录缺少权限。执行

chmod -R 755 / hadoop / directory

提供了必要的许可。

从Java中将JavaRDD保存到HDFS

2 个答案: