如何使用spark(python)读取zip文件中的CSV文件的内容

时间:2016-05-05 21:52:27

标签: python hadoop apache-spark zip pyspark

我有多个zip文件包含两种类型的文件(A.csv& B.csv)

/data/jan.zip - >包含A.csv& B.csv
/data/feb.zip - >包含A.csv& B.csv

我想使用pyspark读取所有zip文件中所有A.csv文件的内容。

 textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")

有人可以告诉我如何将A.csv文件的内容放入RDD吗?

1 个答案:

答案 0 :(得分:-1)

在这里,您希望以递归方式读取zip文件中的所有csv文件。

val files = sc.CSVFiles("file://path/to/files/*.zip")
files.flatMap({case (name, content) =>
  unzip(content)
})

def unzip(content: String): List[String] = {
  ...
}