我在tar.gz文件中有这三个文件file_1.csv,file_2.csv,file_3.json。我想在Spark数据框中读取file_1.csv
类似这样的东西:
df = spark.read.csv("s3://my_bucket/key/my_file_.tar.gz/file_1.csv")
答案 0 :(得分:0)
在不首先提取文件的情况下,没有一种很好的方法来访问tarball(.tar.gz/.tar
)中的文件。
这是其他人关于在tarball中打开文件而不先提取文件的问题的reference。