在Emr群集上安装com.databricks.spark.xml

时间:2020-02-19 10:50:16

标签: python amazon-web-services apache-spark amazon-emr apache-spark-xml

有人知道如何在EMR群集上安装 com.databricks.spark.xml 软件包。

我成功连接到主emr,但是不知道如何在emr集群上安装软件包。

代码

sc.install_pypi_package("com.databricks.spark.xml")

1 个答案:

答案 0 :(得分:1)

在EMR主节点上:

cd /usr/lib/spark/jars
sudo wget https://repo1.maven.org/maven2/com/databricks/spark-xml_2.11/0.9.0/spark-xml_2.11-0.9.0.jar

请确保根据您的Spark版本和https://github.com/databricks/spark-xml中提供的指南选择正确的jar。

然后,启动Jupyter笔记本,您应该能够运行以下内容:

df = spark.read.format('com.databricks.spark.xml').options(rootTag='objects').options(rowTag='object').load("s3://bucket-name/sample.xml")