应用错误收集

如何读取XML文件Azure Databricks Spark

时间：2018-10-09 20:19:29

标签： azure apache-spark databricks

我一直在MSDN论坛上寻找一些信息，但是找不到一个好的论坛/在Spark网站上阅读时，我暗示在这里我会有更多的机会。因此，最重要的是，我想读取一个Blob存储，其中存在XML文件（所有小文件）的连续提要，最后，我们将这些文件存储在Azure DW中。使用Azure Databricks可以使用Spark和python，但是找不到“读取” xml类型的方法。一些示例脚本使用了xml.etree.ElementTree库，但我无法将其导入。因此，请您为我提供一个好的指导。

2 个答案:

答案 0 :(得分：2)

一种方法是使用databricks spark-xml库：

将spark-xml库导入您的工作空间 https://docs.databricks.com/user-guide/libraries.html#create-a-library（在maven / spark包部分中搜索spark-xml并将其导入）
将库附加到群集https://docs.databricks.com/user-guide/libraries.html#attach-a-library-to-a-cluster
在笔记本中使用以下代码读取xml文件，其中“ note”是我的xml文件的根。

xmldata = spark.read.format（'xml'）。option（“ rootTag”，“ note”）。load（'dbfs：/mnt/mydatafolder/xmls/note.xml'）

示例：

答案 1 :(得分：1)

我发现这个真的很有帮助。 https://github.com/raveendratal/PysparkTelugu/blob/master/Read_Write_XML_File.ipynb

他也有一个 youtube 来完成这些步骤。

总而言之，有两种方法：

在您的数据块集群中的“库”选项卡中安装。
通过在笔记本本身中启动 spark-shell 来安装它。