应用错误收集

使用hadoop流拆分压缩文件

时间：2015-04-24 08:41:29

标签： hadoop mapreduce compression hadoop-streaming google-cloud-platform

我正在尝试使用Google云平台上的Hadoop流媒体作业处理许多大型（> 1GB）gzip压缩文件。即使在大型内存计算机上，这些作业仍然会耗尽内存。我知道我应该用LZO压缩它们或者首先解压缩它们以解决这个问题。我想要解压缩它们或使用Hadoop流式传输作业将它们拆分成更小的文件。有没有办法在不遇到内存问题的情况下做到这一点？如果没有，你能推荐另一种方法来处理这个问题而不先下载我的数据吗？

由于

0 个答案:

没有答案

Ascii表示没有特定字符的压缩数据
带有zip输入文件的Hadoop流媒体
将snappy压缩文件加载到Elastic MapReduce中
使用KeyFieldBasedPartitioner进行hadoop文件拆分
Hadoop流媒体与多个python文件
使用Apache Drill查询压缩的gz文件
使用hadoop流拆分压缩文件
使用Python进行Hadoop流式传输：手动拆分输入文件
Hadoop流媒体与多个输入文件
压缩的Hadoop序列文件Python

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？