我试图在pyspark中读取avro文件。 从How to read Avro file in PySpark发现,spark-avro是最好的方法,但我无法弄清楚如何从Github repo安装它。没有可下载的jar,我自己构建它吗?怎么样?
它在群集上运行的Spark 1.6(pyspark)。我没有设置它,所以不太了解配置,但我有sudo访问权限,所以我想我应该能够安装东西。但该机器没有直接的互联网访问权限,因此需要手动复制和安装内容。
谢谢。
答案 0 :(得分:6)
您可以在运行ggplot(vv, aes(x = year, y = mean)) +
ggtitle("scores") +
geom_point(size=3) +
stat_smooth(col = "red")
或spark-avro
:https://github.com/databricks/spark-avro#with-spark-shell-or-spark-submit时将pyspark
添加为程序包,但这需要在驱动程序上访问Internet(驱动程序会将所有文件分发到执行器)。
如果你没有驱动程序的互联网访问权限,你需要自己构建spark-submit
到一个胖罐子:
spark-avro
然后使用pyspark shell测试它:
git clone https://github.com/databricks/spark-avro.git
cd spark-avro
# If you are using spark package other than newest,
# checkout appropriate tag based on table in spark-avro README,
# for example for spark 1.6:
# git checkout v2.0.1
./build/sbt assembly
答案 1 :(得分:0)
应该可以
wget https://repo1.maven.org/maven2/org/apache/spark/spark-avro_2.11/${SPARK_VERSION}/spark-avro_2.11-${SPARK_VERSION}.jar -P $SPARK_HOME/jars/
echo spark.executor.extraClassPath $SPARK_HOME/jars/spark-avro_2.11-$SPARK_VERSION.jar >> /usr/local/spark/conf/spark-defaults.conf
echo spark.driver.extraClassPath $SPARK_HOME/jars/spark-avro_2.11-$SPARK_VERSION.jar >> /usr/local/spark/conf/spark-defaults.conf