Spark saveAsNewAPIHadoopFile在本地模式下工作,但在群集模式下不工作

时间:2015-06-16 22:55:44

标签: apache-spark hdfs cloudera spark-streaming

升级到CDH5.4和Spark流式1.3之后,我遇到了一个奇怪的问题,即saveAsNewAPIHadoopFile不再像以前那样将文件保存到HDFS。我可以看到正在生成_temp目录,但是当Save完成后,_temp被删除并且只用SUCCESS文件将目录留空。我觉得文件是生成的,但之后,在删除_temp之前,它们无法移出_temp目录。

仅在Spark Cluster(独立模式)上运行时才会出现此问题。如果我使用本地spark运行作业,文件将按预期保存。

一些帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

你是在笔记本电脑/台式电脑上运行吗?

如果您用于输出的路径是NFS上的 relative 路径,则可能发生这种情况。在这种情况下,Spark假设相对路径是hdfs://而不是file://并且无法写出磁盘。