在pyspark数据框中的tar.gz文件中读取特定的csv文件

时间:2019-06-06 21:08:54

标签: python csv apache-spark pyspark tar

我在tar.gz文件中有这三个文件file_1.csv,file_2.csv,file_3.json。我想在Spark数据框中读取file_1.csv

类似这样的东西:

df = spark.read.csv("s3://my_bucket/key/my_file_.tar.gz/file_1.csv")

1 个答案:

答案 0 :(得分:0)

在不首先提取文件的情况下,没有一种很好的方法来访问tarball(.tar.gz/.tar)中的文件。 这是其他人关于在tarball中打开文件而不先提取文件的问题的reference