如何停止S3DistCp重新压缩VCF文件

时间:2019-04-09 22:12:09

标签: distcp s3distcp

我正在尝试使用S3DistCp(s3-dist-cp)将一堆压缩的VCF文件从s3复制到某些EMR群集的hdfs,但是遇到了以下问题。我正在使用以下命令复制1个单个文件:

s3-dist-cp --src s3:// some-bucket / some-prefix / --dest hdfs:/// some-bucket / some-prefix / --srcPattern“。* filename.vcf.gz

每当复制此文件时,显然它将保持相同的压缩率(生成的文件仍具有ext .gz),但是文件大小略有变化,并且我的阅读应用程序不再将其识别为有效的gz压缩文件。如果我使用--outputCodec = none删除压缩,则可以正常工作,但数据会增大15倍。

如何强制s3-dist-cp仅复制文件,而不进行任何重新压缩?

0 个答案:

没有答案