如何从EMR的S3存储桶中读取XML文件?

时间:2019-08-11 22:27:19

标签: xml pyspark amazon-emr

我已将XML文件存储在S3存储桶中,并希望在键入后在EMR上读取它们:

sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "Profile").load(xml_file_path)

它给了我错误:

  

调用o445.load时发生错误。   :java.lang.ClassNotFoundException:无法找到数据源:com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html

中找到软件包

1 个答案:

答案 0 :(得分:0)

  1. 使用Spark。Link

    在运行的EMR集群上安装spark-xml库。
  2. 启动PySpark笔记本

  3. 执行以下操作:

df = spark.read.format('com.databricks.spark.xml')。options(rootTag ='objects')。options(rowTag ='object')。load(“ s3:// bucket-name /sample.xml”)