当我运行spark提交时,查找本地文件系统而不是hdfs

时间:2017-11-22 12:55:34

标签: apache-spark

当我运行spark-submit时,它会抛出错误,表明文件系统中没有文件如下所示。

Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/user/sclee/clustering2/mapTemplate_micron

我认为我的文件位于hdfs而不是我本地系统中。 我发现我的hadoop配置文件已正确配置如下

<property>
<name>fs.defaultFS</name>
<value>hdfs://spark.dso.hdm1:9000</value>
</property>
<property>

如何解决此问题?

补充

以下是我的提交查询。 实际上,我使用下面的查询很好地使用了火花。但是,我错误地删除了spark目录。所以我从工作节点复制了spark目录。然后我的问题发生了。我希望解决我的问题。感谢。

hadoop fs -rm -r /home/hawq2/*
spark-submit \
        --class com.bistel.spark.examples.yma.ClusterServiceBasedOnNewAlgo \
        --master spark://spark.dso.spkm1:7077 \
        --executor-memory 8g\
        --executor-cores 4\
        --jars /home/jumbo/user/sclee/clustering/guava-19.0.jar\
        --conf spark.eventLog.enabled=true\
        --conf spark.eventLog.dir=hdfs://spark.dso.hdm1:9000/user/jumbo/applicationHistory\
        --conf spark.memory.offHeap.enabled=true\
        --conf spark.memory.offHeap.size=268435456\
        ./new.jar\
        /user/sclee/clustering2/mapTemplate_micron      /user/sclee/clustering2/data/bin3       /user/sclee/clustering2/ret

1 个答案:

答案 0 :(得分:2)

看起来您的HADOOP_CONF_DIR未加载,或其中的文件

例如,请在spark-env.sh中进行检查,为您的配置设置正确的目录

HADOOP_CONF_DIR=/etc/hadoop/

然后,确保在该目录中配置了hdfs-site.xml,core-site.xml和yarn-site.xml。 (虽然看起来你没有使用YARN,所以可能只是核心和hdfs)