标签: python mapreduce compression mapper mrjob
我想使用MrJob分析数据集,而不事先将其解压缩到磁盘上(它是18Gb压缩但是> 3Tb未压缩)。如何使用mrjob.cat自动解压缩文件并将其流式传输到我的映射器?没有任何代码示例。
答案 0 :(得分:0)
MRJob可以自动采用压缩文件格式,如.bz2和.gz作为输入,它会知道该怎么做。