如何读取XML文件Azure Databricks Spark

时间:2018-10-09 20:19:29

标签: azure apache-spark databricks

我一直在MSDN论坛上寻找一些信息,但是找不到一个好的论坛/在Spark网站上阅读时,我暗示在这里我会有更多的机会。 因此,最重要的是,我想读取一个Blob存储,其中存在XML文件(所有小文件)的连续提要,最后,我们将这些文件存储在Azure DW中。 使用Azure Databricks可以使用Spark和python,但是找不到“读取” xml类型的方法。一些示例脚本使用了xml.etree.ElementTree库,但我无法将其导入。 因此,请您为我提供一个好的指导。

2 个答案:

答案 0 :(得分:2)

一种方法是使用databricks spark-xml库:

  1. 将spark-xml库导入您的工作空间 https://docs.databricks.com/user-guide/libraries.html#create-a-library(在maven / spark包部分中搜索spark-xml并将其导入)
  2. 将库附加到群集https://docs.databricks.com/user-guide/libraries.html#attach-a-library-to-a-cluster
  3. 在笔记本中使用以下代码读取xml文件,其中“ note”是我的xml文件的根。
  

xmldata = spark.read.format('xml')。option(“ rootTag”,“ note”)。load('dbfs:/mnt/mydatafolder/xmls/note.xml')

示例:

Example

答案 1 :(得分:1)

我发现这个真的很有帮助。 https://github.com/raveendratal/PysparkTelugu/blob/master/Read_Write_XML_File.ipynb

他也有一个 youtube 来完成这些步骤。

总而言之,有两种方法:

  1. 在您的数据块集群中的“库”选项卡中安装。
  2. 通过在笔记本本身中启动 spark-shell 来安装它。