升级到CDH5.4和Spark流式1.3之后,我遇到了一个奇怪的问题,即saveAsNewAPIHadoopFile不再像以前那样将文件保存到HDFS。我可以看到正在生成_temp目录,但是当Save完成后,_temp被删除并且只用SUCCESS文件将目录留空。我觉得文件是生成的,但之后,在删除_temp之前,它们无法移出_temp目录。
仅在Spark Cluster(独立模式)上运行时才会出现此问题。如果我使用本地spark运行作业,文件将按预期保存。
一些帮助将不胜感激。
答案 0 :(得分:0)
你是在笔记本电脑/台式电脑上运行吗?
如果您用于输出的路径是NFS上的 relative 路径,则可能发生这种情况。在这种情况下,Spark假设相对路径是hdfs://而不是file://并且无法写出磁盘。