从spark中的hdfs解压缩文件

时间:2017-02-01 06:45:40

标签: scala apache-spark hdfs compression

我正在使用spark,我在hdfs上有不同类型的压缩文件(zip,gzip,7zip,tar,bz2,tar.gz等)。谁能让我知道减压的最佳方法。对于某些压缩,我可以使用CompressionCodec。但它不支持所有压缩格式。对于zip文件,我做了一些搜索,发现可以使用ZipFileInputFormat。但我找不到任何罐子。

1 个答案:

答案 0 :(得分:0)

对于某些压缩格式(我知道tar.gz和zip确实适用于其他格式),您可以直接使用数据框API,它可以处理压缩为你:

val df = spark.read.json("compressed-json.tar.gz")