如何在Amazon AWS S3中预览压缩对象?

时间:2016-11-23 01:34:06

标签: amazon-s3 compression

我们有一个非常大的压缩文件,合作伙伴为我们提供了S3。我们希望在这些文件上运行MapReduce作业,但它们太大而无法下载到我们的某个节点进行检查。我们如何快速检查文件以了解如何编写MapReduce作业?#/ p>

1 个答案:

答案 0 :(得分:0)

我们使用以下命令。当然,您需要根据文件的压缩格式调整解压缩步骤。您必须确保初始count足够大,以便将足够的压缩文件通过管道传输到解压缩算法中,以便开始解压缩。在GZIP的情况下,它在文件的开头有一个标题。如果初始count不足以获得GZIP命令的标头,则此命令将失败。此外,第二个count不必等于第一个count。要读取的实际数据量是第一个aws s3 cp s3://yer-bucket/path-to/yer/object.gz - | dd ibs=1024 count=1000 | gzip -cd | dd ibs=1024 count=1000 除以压缩率,但只要这两个数字都足够大,您就可以预览文件了。

pty