如何为Spark,Python设置特定的Hadoop版本

时间:2017-05-22 09:42:29

标签: python hadoop apache-spark pyspark pycharm

我需要帮助在我的spark配置中设置特定的hadoop版本。我在某处读到你可以使用hadoop.version属性。它没有说明在哪里找到它。

http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version

我需要将它从current / default设置为2.8.0。我在PyCharm编码。请提供帮助,最好是逐步指导。

谢谢!

2 个答案:

答案 0 :(得分:0)

您可以在编译时执行此操作。请参阅building spark doc

使用Hadoop 2.8运行构建

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.0 -DskipTests clean package

2.7版适用于Hadoop 2.7.X及更高版本

答案 1 :(得分:0)

对于Apache Hadoop 2.7.X 以及,你可以这样构建,所以上面的答案是正确的。 [

 ./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.0 -DskipTests clean package

或者您可以在执行maven构建之前在spark下载的发行版的pom.xml中修改它,以便使用您想要的版本完成构建。

<profile>
    <id>hadoop2.8</id>
    <properties>
        <hadoop.version>2.8</hadoop.version>
    ...
    </properties>
</profile>

请查看this post以获取分步指导。