我正在尝试使用Pyspark从HDFS读取XML文件来创建MapReduce作业。 XML文件每个文件大约2-3Gb,并且几乎有2000个这样的文件。我在Pyspark Shell中运行脚本,并通过将数据读取为文本文件来创建RDD。
dataFile = sc.textFile(“hdfs:///home/hadoop/pubmed18n0001.xml.gz")
我需要将HDFS中的文件读取为XML文件而不是文本文件。 使用python / pyspark从HDFS读取XML数据的最佳方法是什么?