当我运行spark-submit时,它会抛出错误,表明文件系统中没有文件如下所示。
Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/user/sclee/clustering2/mapTemplate_micron
我认为我的文件位于hdfs而不是我本地系统中。 我发现我的hadoop配置文件已正确配置如下
<property>
<name>fs.defaultFS</name>
<value>hdfs://spark.dso.hdm1:9000</value>
</property>
<property>
如何解决此问题?
以下是我的提交查询。 实际上,我使用下面的查询很好地使用了火花。但是,我错误地删除了spark目录。所以我从工作节点复制了spark目录。然后我的问题发生了。我希望解决我的问题。感谢。
hadoop fs -rm -r /home/hawq2/*
spark-submit \
--class com.bistel.spark.examples.yma.ClusterServiceBasedOnNewAlgo \
--master spark://spark.dso.spkm1:7077 \
--executor-memory 8g\
--executor-cores 4\
--jars /home/jumbo/user/sclee/clustering/guava-19.0.jar\
--conf spark.eventLog.enabled=true\
--conf spark.eventLog.dir=hdfs://spark.dso.hdm1:9000/user/jumbo/applicationHistory\
--conf spark.memory.offHeap.enabled=true\
--conf spark.memory.offHeap.size=268435456\
./new.jar\
/user/sclee/clustering2/mapTemplate_micron /user/sclee/clustering2/data/bin3 /user/sclee/clustering2/ret
答案 0 :(得分:2)
看起来您的HADOOP_CONF_DIR
未加载,或其中的文件
例如,请在spark-env.sh
中进行检查,为您的配置设置正确的目录
HADOOP_CONF_DIR=/etc/hadoop/
然后,确保在该目录中配置了hdfs-site.xml,core-site.xml和yarn-site.xml。 (虽然看起来你没有使用YARN,所以可能只是核心和hdfs)