无法在spark-assembly-1.4.0-hadoop2.6.0.jar中找到pyspark

时间:2015-09-28 09:23:45

标签: apache-spark yarn pyspark

我已经从Spark download link下载了源代码,我已经使用

构建了它
build/mvn -Pyarn -Phadoop-2.6 -Phive -Dhadoop.version=2.6.0 -DskipTests clean package

但当我做jar -tf spark-assembly-1.4.0-hadoop2.6.0.jar |grep pyspark时 它没有显示任何结果。我在CentOS 6.6上构建它。我创建装配罐错了吗?

我看了AWS EMR Spark "No Module named pyspark",看起来他的集会JAR显示了一个pyspark类。
Apache Spark文档在这方面并不完全清楚。(或者我可能弄错了)

请赐教我以下内容:

  1. 要在yarn上运行pyspark,程序集JAR是否需要包含pyspark类?
  2. 如果是,我怎样才能将它添加到装配罐?

1 个答案:

答案 0 :(得分:0)

这是正常的 - 装配罐没有任何pyspark类。

编辑:

您可以通过从java_import搜索py4j功能找到pyspark使用的jar。看起来这些罐子是:

# From java_gateway.py
java_import(gateway.jvm, "org.apache.spark.SparkConf")
java_import(gateway.jvm, "org.apache.spark.api.java.*")
java_import(gateway.jvm, "org.apache.spark.api.python.*")
java_import(gateway.jvm, "org.apache.spark.mllib.api.python.*")
java_import(gateway.jvm, "org.apache.spark.sql.*")
java_import(gateway.jvm, "org.apache.spark.sql.hive.*")
java_import(gateway.jvm, "scala.Tuple2")

# From context.py:
java_import(gw.jvm, "org.apache.spark.streaming.*")
java_import(gw.jvm, "org.apache.spark.streaming.api.java.*")
java_import(gw.jvm, "org.apache.spark.streaming.api.python.*")