Question

我正在尝试使用databricks spark xml库导入以下XML文件：https://s3.eu-west-2.amazonaws.com/kieranw/Badges.xml。

xml_posts = spark.read.format("xml").options(rootTag='badges').load('s3a://%s:%s@%s/Badges.xml'% (ACCESS_KEY, ENCODED_SECRET_KEY, BUCKET_NAME))
xml_posts.printSchema()
xml_posts.show()

我使用带有Spark 2.2.1的数据库笔记本。

当我尝试执行show null时，只返回到屏幕。我假设它与解析器没有正确解释XML文件有关。如果是这种情况，我该如何正确定义架构呢？

谢谢：）

Answer 1

如果您只是尝试定义架构，可以在databricks xml库中找到它 https://github.com/databricks/spark-xml

我已将库添加到我的群集中（有关信息，请参阅this），但在阅读时却没有运气。我不相信这是架构

在databricks上加载XML文件Pyspark

1 个答案: