我一直在MSDN论坛上寻找一些信息,但是找不到一个好的论坛/在Spark网站上阅读时,我暗示在这里我会有更多的机会。 因此,最重要的是,我想读取一个Blob存储,其中存在XML文件(所有小文件)的连续提要,最后,我们将这些文件存储在Azure DW中。 使用Azure Databricks可以使用Spark和python,但是找不到“读取” xml类型的方法。一些示例脚本使用了xml.etree.ElementTree库,但我无法将其导入。 因此,请您为我提供一个好的指导。
答案 0 :(得分:2)
一种方法是使用databricks spark-xml库:
xmldata = spark.read.format('xml')。option(“ rootTag”,“ note”)。load('dbfs:/mnt/mydatafolder/xmls/note.xml')
示例:
答案 1 :(得分:1)
我发现这个真的很有帮助。 https://github.com/raveendratal/PysparkTelugu/blob/master/Read_Write_XML_File.ipynb
他也有一个 youtube 来完成这些步骤。
总而言之,有两种方法: