标签: hadoop compression hadoop-streaming lzo
我没有使用hadoop-lzo索引我的LZO输入文件,而是决定将其简单地拆分成一个块,用LZO压缩的块将接近128MB(因为它是 Amazon Distribution上的默认块大小 [1])。
hadoop-lzo
是否有任何错误(从集群性能角度来看)提供已经拆分并压缩到接近默认HDFS块大小的大小的输入?