我已将XML文件存储在S3存储桶中,并希望在键入后在EMR上读取它们:
sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "Profile").load(xml_file_path)
它给了我错误:
调用o445.load时发生错误。 :java.lang.ClassNotFoundException:无法找到数据源:com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html
中找到软件包
答案 0 :(得分:0)
使用Spark。Link
在运行的EMR集群上安装spark-xml库。启动PySpark笔记本
执行以下操作:
df = spark.read.format('com.databricks.spark.xml')。options(rootTag ='objects')。options(rowTag ='object')。load(“ s3:// bucket-name /sample.xml”)