使用Pyspark从文件夹加载XML文件

时间:2019-04-24 06:37:46

标签: pyspark pyspark-sql

我想从Pyspark的特定文件夹中加载XML文件。但我不想使用 com.databricks.spark.xml 包。在每个示例中,我都使用com.databricks.spark.xml包。

没有此程序包是否可以读取XML文件?

1 个答案:

答案 0 :(得分:0)

可以使用“ xml.etree.ElementTree作为ET”吗?如果是,则使用此函数在python中编写一个函数,并创建一个udf。将XML文件作为RDD读取到PySpark中,并使用udf进行解析。