我已经在群集中安装Spark了几天。
因为群集使用Hadoop 2.2,因为我想在YARN上使用PySpark。我不得不使用MAVEN构建Spark。这个过程的输出是.jar文件:spark-assembly-1.2.0-hadoop2.2.0.jar(我不熟悉Java)。如果我尝试在使用Java的任何节点上执行它(“无法找到或加载主类”),则该.jar文件将不会运行。
我发现的安装说明涉及运行.sh文件,该文件不是我MAVEN版本的输出。
我在这里缺少什么?我在文档中找不到答案。
答案 0 :(得分:0)
您不需要使用Maven构建Spark以使用PyShark。您可以在预构建的Spark包中使用提交脚本。
编辑:
export MAVEN_OPTS =“ - Xmx2g -XX:MaxPermSize = 512M -XX:ReservedCodeCacheSize = 512m” export JAVA_HOME = your_java_home
./ make-distribution.sh -Pyarn -Phadoop-2.2
生成的分发将位于dist目录中。