Question

当我运行spark-submit时，它会抛出错误，表明文件系统中没有文件如下所示。

Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/user/sclee/clustering2/mapTemplate_micron

我认为我的文件位于hdfs而不是我本地系统中。我发现我的hadoop配置文件已正确配置如下

<property>
<name>fs.defaultFS</name>
<value>hdfs://spark.dso.hdm1:9000</value>
</property>
<property>

如何解决此问题？

补充

以下是我的提交查询。实际上，我使用下面的查询很好地使用了火花。但是，我错误地删除了spark目录。所以我从工作节点复制了spark目录。然后我的问题发生了。我希望解决我的问题。感谢。

hadoop fs -rm -r /home/hawq2/*
spark-submit \
        --class com.bistel.spark.examples.yma.ClusterServiceBasedOnNewAlgo \
        --master spark://spark.dso.spkm1:7077 \
        --executor-memory 8g\
        --executor-cores 4\
        --jars /home/jumbo/user/sclee/clustering/guava-19.0.jar\
        --conf spark.eventLog.enabled=true\
        --conf spark.eventLog.dir=hdfs://spark.dso.hdm1:9000/user/jumbo/applicationHistory\
        --conf spark.memory.offHeap.enabled=true\
        --conf spark.memory.offHeap.size=268435456\
        ./new.jar\
        /user/sclee/clustering2/mapTemplate_micron      /user/sclee/clustering2/data/bin3       /user/sclee/clustering2/ret

Answer 1

看起来您的HADOOP_CONF_DIR未加载，或其中的文件

例如，请在spark-env.sh中进行检查，为您的配置设置正确的目录

HADOOP_CONF_DIR=/etc/hadoop/

然后，确保在该目录中配置了hdfs-site.xml，core-site.xml和yarn-site.xml。（虽然看起来你没有使用YARN，所以可能只是核心和hdfs）

当我运行spark提交时，查找本地文件系统而不是hdfs

补充

1 个答案: