如何使用mrjob.cat自动解压缩输入?

时间:2018-03-09 21:49:40

标签: python mapreduce compression mapper mrjob

我想使用MrJob分析数据集,而不事先将其解压缩到磁盘上(它是18Gb压缩但是> 3Tb未压缩)。如何使用mrjob.cat自动解压缩文件并将其流式传输到我的映射器?没有任何代码示例。

1 个答案:

答案 0 :(得分:0)

MRJob可以自动采用压缩文件格式,如.bz2和.gz作为输入,它会知道该怎么做。