PySpark和访问HDFS

时间:2015-06-24 17:54:43

标签: python hadoop apache-spark pyspark

我试图获取我已复制到HDFS的文件,但是我似乎无法明确如何实际连接。例如,我使用以下命令将文件放入HDFS:

hdfs dfs -put ~/spark-1.4.0/XXX/YYY input

哪个工作正常,但现在是从PySpark定位它们的问题。 spark的文档指向:https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html

我使用的是与hadoop2.6匹配的spark版本,但我没有看到上述链接指向的目录中的任何conf文件。

我可以直接访问输入文件 - 还是需要使用PySpark进行更多配置?

1 个答案:

答案 0 :(得分:3)

所以Spark没有附带hadoop-site或yarn-site文件,因为这些文件特定于你的hadoop安装。

您应该更新spark-env.sh脚本以指向文件所在的配置目录。如果找不到hadoop-site.xml文件,您可以尝试运行export和grep for CONF并检查适用于YARN_CONF_DIRHADOOP_CONF_DIR。如果您找不到其中任何一个,那么您的hdfs命令可能已经找到了您的配置,因此您可以始终在其上运行strace并查找从中加载配置文件的位置。