我试图获取我已复制到HDFS的文件,但是我似乎无法明确如何实际连接。例如,我使用以下命令将文件放入HDFS:
hdfs dfs -put ~/spark-1.4.0/XXX/YYY input
哪个工作正常,但现在是从PySpark定位它们的问题。 spark的文档指向:https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html
我使用的是与hadoop2.6匹配的spark版本,但我没有看到上述链接指向的目录中的任何conf文件。
我可以直接访问输入文件 - 还是需要使用PySpark进行更多配置?
答案 0 :(得分:3)
所以Spark没有附带hadoop-site或yarn-site文件,因为这些文件特定于你的hadoop安装。
您应该更新spark-env.sh脚本以指向文件所在的配置目录。如果找不到hadoop-site.xml文件,您可以尝试运行export和grep for CONF并检查适用于YARN_CONF_DIR
或HADOOP_CONF_DIR
。如果您找不到其中任何一个,那么您的hdfs命令可能已经找到了您的配置,因此您可以始终在其上运行strace并查找从中加载配置文件的位置。