我正在尝试使用databricks spark xml库导入以下XML文件:https://s3.eu-west-2.amazonaws.com/kieranw/Badges.xml。
xml_posts = spark.read.format("xml").options(rootTag='badges').load('s3a://%s:%s@%s/Badges.xml'% (ACCESS_KEY, ENCODED_SECRET_KEY, BUCKET_NAME))
xml_posts.printSchema()
xml_posts.show()
我使用带有Spark 2.2.1的数据库笔记本。
当我尝试执行show null时,只返回到屏幕。我假设它与解析器没有正确解释XML文件有关。如果是这种情况,我该如何正确定义架构呢?
谢谢:)
答案 0 :(得分:0)
如果您只是尝试定义架构,可以在databricks xml库中找到它 https://github.com/databricks/spark-xml
我已将库添加到我的群集中(有关信息,请参阅this),但在阅读时却没有运气。我不相信这是架构