我已经从Spark download link下载了源代码,我已经使用
构建了它build/mvn -Pyarn -Phadoop-2.6 -Phive -Dhadoop.version=2.6.0 -DskipTests clean package
但当我做jar -tf spark-assembly-1.4.0-hadoop2.6.0.jar |grep pyspark
时
它没有显示任何结果。我在CentOS 6.6上构建它。我创建装配罐错了吗?
我看了AWS EMR Spark "No Module named pyspark",看起来他的集会JAR显示了一个pyspark类。
Apache Spark文档在这方面并不完全清楚。(或者我可能弄错了)
请赐教我以下内容:
答案 0 :(得分:0)
这是正常的 - 装配罐没有任何pyspark类。
编辑:
您可以通过从java_import
搜索py4j
功能找到pyspark使用的jar。看起来这些罐子是:
# From java_gateway.py
java_import(gateway.jvm, "org.apache.spark.SparkConf")
java_import(gateway.jvm, "org.apache.spark.api.java.*")
java_import(gateway.jvm, "org.apache.spark.api.python.*")
java_import(gateway.jvm, "org.apache.spark.mllib.api.python.*")
java_import(gateway.jvm, "org.apache.spark.sql.*")
java_import(gateway.jvm, "org.apache.spark.sql.hive.*")
java_import(gateway.jvm, "scala.Tuple2")
# From context.py:
java_import(gw.jvm, "org.apache.spark.streaming.*")
java_import(gw.jvm, "org.apache.spark.streaming.api.java.*")
java_import(gw.jvm, "org.apache.spark.streaming.api.python.*")