安装spark-avro

时间:2016-11-17 06:12:42

标签: pyspark spark-avro

我试图在pyspark中读取avro文件。 从How to read Avro file in PySpark发现,spark-avro是最好的方法,但我无法弄清楚如何从Github repo安装它。没有可下载的jar,我自己构建它吗?怎么样?

它在群集上运行的Spark 1.6(pyspark)。我没有设置它,所以不太了解配置,但我有sudo访问权限,所以我想我应该能够安装东西。但该机器没有直接的互联网访问权限,因此需要手动复制和安装内容。

谢谢。

2 个答案:

答案 0 :(得分:6)

您可以在运行ggplot(vv, aes(x = year, y = mean)) + ggtitle("scores") + geom_point(size=3) + stat_smooth(col = "red") spark-avrohttps://github.com/databricks/spark-avro#with-spark-shell-or-spark-submit时将pyspark添加为程序包,但这需要在驱动程序上访问Internet(驱动程序会将所有文件分发到执行器)。

如果你没有驱动程序的互联网访问权限,你需要自己构建spark-submit到一个胖罐子:

spark-avro

然后使用pyspark shell测试它:

git clone https://github.com/databricks/spark-avro.git
cd spark-avro
# If you are using spark package other than newest, 
# checkout appropriate tag based on table in spark-avro README, 
# for example for spark 1.6:
# git checkout v2.0.1 
./build/sbt assembly

答案 1 :(得分:0)

应该可以

wget https://repo1.maven.org/maven2/org/apache/spark/spark-avro_2.11/${SPARK_VERSION}/spark-avro_2.11-${SPARK_VERSION}.jar -P $SPARK_HOME/jars/                                                        

echo spark.executor.extraClassPath $SPARK_HOME/jars/spark-avro_2.11-$SPARK_VERSION.jar >>  /usr/local/spark/conf/spark-defaults.conf                                                                    

echo spark.driver.extraClassPath $SPARK_HOME/jars/spark-avro_2.11-$SPARK_VERSION.jar >>  /usr/local/spark/conf/spark-defaults.conf