Pyspark:如何从HDFS访问XML文件并使用Pyspark / Python读取XML文件

时间:2018-12-06 20:25:53

标签: python xml hadoop pyspark hdfs

我正在尝试使用Pyspark从HDFS读取XML文件来创建MapReduce作业。 XML文件每个文件大约2-3Gb,并且几乎有2000个这样的文件。我在Pyspark Shell中运行脚本,并通过将数据读取为文本文件来创建RDD。

dataFile = sc.textFile(“hdfs:///home/hadoop/pubmed18n0001.xml.gz")

我需要将HDFS中的文件读取为XML文件而不是文本文件。 使用python / pyspark从HDFS读取XML数据的最佳方法是什么?

0 个答案:

没有答案