Lzo文件在hive作业中没有分裂

时间:2015-12-03 07:41:30

标签: hadoop amazon-web-services amazon-s3 hive lzo

我们在s3中有3个.lzo文件和相应的.index文件。 我们正在这些文件的目录上创建一个外部表。 每个lzo文件的大小为100MB +,每个文件的未合并大小为800 + MB 块大小为128MB。 当我们运行配置单元查询时,遗憾的是只有3个映射器正在生成,这表明分裂没有发生,可能是什么问题?

2 个答案:

答案 0 :(得分:1)

Splittable仅在压缩文件的大小大于拆分大小时适用。 Hive默认拆分大小为256 MB。

在配置单元会话中修改拆分大小并运行查询。

set mapreduce.input.fileinputformat.split.minsize=64000000

答案 1 :(得分:0)

一切都设定为30MB。

set mapreduce.input.fileinputformat.split.maxsize=31457280;
set mapreduce.input.fileinputformat.split.minsize=31457280;
set dfs.blocksize=31457280;

我们仍然看到映射器的数量保持不变。这是在普通集群上完成的,不在S3上。 我们看到3个LZO文件只有10个映射器(229.16 MB,705.79 MB,157.61 MB)