我们在s3中有3个.lzo文件和相应的.index文件。 我们正在这些文件的目录上创建一个外部表。 每个lzo文件的大小为100MB +,每个文件的未合并大小为800 + MB 块大小为128MB。 当我们运行配置单元查询时,遗憾的是只有3个映射器正在生成,这表明分裂没有发生,可能是什么问题?
答案 0 :(得分:1)
Splittable仅在压缩文件的大小大于拆分大小时适用。 Hive默认拆分大小为256 MB。
在配置单元会话中修改拆分大小并运行查询。
set mapreduce.input.fileinputformat.split.minsize=64000000
答案 1 :(得分:0)
一切都设定为30MB。
set mapreduce.input.fileinputformat.split.maxsize=31457280;
set mapreduce.input.fileinputformat.split.minsize=31457280;
set dfs.blocksize=31457280;
我们仍然看到映射器的数量保持不变。这是在普通集群上完成的,不在S3上。 我们看到3个LZO文件只有10个映射器(229.16 MB,705.79 MB,157.61 MB)