Question

我试图获取我已复制到HDFS的文件，但是我似乎无法明确如何实际连接。例如，我使用以下命令将文件放入HDFS：

hdfs dfs -put ~/spark-1.4.0/XXX/YYY input

哪个工作正常，但现在是从PySpark定位它们的问题。 spark的文档指向：https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html

我使用的是与hadoop2.6匹配的spark版本，但我没有看到上述链接指向的目录中的任何conf文件。

我可以直接访问输入文件 - 还是需要使用PySpark进行更多配置？

Answer 1

所以Spark没有附带hadoop-site或yarn-site文件，因为这些文件特定于你的hadoop安装。

您应该更新spark-env.sh脚本以指向文件所在的配置目录。如果找不到hadoop-site.xml文件，您可以尝试运行export和grep for CONF并检查适用于YARN_CONF_DIR或HADOOP_CONF_DIR。如果您找不到其中任何一个，那么您的hdfs命令可能已经找到了您的配置，因此您可以始终在其上运行strace并查找从中加载配置文件的位置。

PySpark和访问HDFS

1 个答案: