Question

我已将XML文件存储在S3存储桶中，并希望在键入后在EMR上读取它们：

sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "Profile").load(xml_file_path)

它给了我错误：

调用o445.load时发生错误。：java.lang.ClassNotFoundException：无法找到数据源：com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html
中找到软件包

Answer 1

df = spark.read.format（'com.databricks.spark.xml'）。options（rootTag ='objects'）。options（rowTag ='object'）。load（“ s3：// bucket-name /sample.xml”）