我正在尝试将Spark JavaRDD保存到HDFS。该过程成功运行但我没有看到文件保存在HDFS中。以下是我的代码。我在本地运行它。 (直接从IntelliJ运行main()方法。)
GET / 404 0.658 ms - 13
GET / 404 0.464 ms - 13
GET / 404 0.313 ms - 13
GET / 404 0.416 ms - 13
GET / 404 0.393 ms - 13
GET / 404 0.202 ms - 13
GET / 404 0.124 ms - 13
GET / 404 0.142 ms - 13
我在Spark 2.0和Hadoop 2.7.2上运行此代码。在我的hadoop中,core-site.xml配置为localhost:9000。我正在启动我的HDFS伪分布式集群,如hadoop文档中所述。
我在这里缺少什么?
答案 0 :(得分:0)
尝试了saveAsSequenceFile
?
看看这个
https://spark.apache.org/docs/1.0.0/api/java/org/apache/spark/rdd/SequenceFileRDDFunctions.html
感谢。
答案 1 :(得分:0)
最后我能够解决这个问题。有2个问题
1)我使用的是Hadoop-2.7.2,我的java版本是jdk1.8。似乎只支持Hadoop2.0以后的JDK1.8。对于Hadoop-2.7,我需要JDK1.7。我将我的java版本改为1.7
2)Hadoop目录缺少权限。执行
chmod -R 755 / hadoop / directory
提供了必要的许可。