标签: hadoop mapreduce compression hadoop-streaming google-cloud-platform
我正在尝试使用Google云平台上的Hadoop流媒体作业处理许多大型(> 1GB)gzip压缩文件。即使在大型内存计算机上,这些作业仍然会耗尽内存。我知道我应该用LZO压缩它们或者首先解压缩它们以解决这个问题。我想要解压缩它们或使用Hadoop流式传输作业将它们拆分成更小的文件。有没有办法在不遇到内存问题的情况下做到这一点?如果没有,你能推荐另一种方法来处理这个问题而不先下载我的数据吗?
由于