谷歌云存储 - Tez输出文件

时间:2015-03-16 03:40:37

标签: hadoop hive google-cloud-storage

当我使用tez运行查询时,输出文件的数量非常巨大。我有一些4-5 GB的数据,每个数据有46 MB或16 MB。我想只有2-3个文件作为输出文件。

我的输出文件位置将是谷歌云存储。如何合并文件?

set mapred.reduce.tasks = 1;
set hive.merge.mapfiles = true; 
set hive.mergejob.maponly = true;
set hive.merge.mapredfiles=true;

我确实设置了这些参数。我确实写了insert overwrite query来覆盖同一位置的数据。没用请帮忙。

1 个答案:

答案 0 :(得分:0)

我能够完成这件事。早些时候,当我这样做时,它只是地图工作。现在,我已经更改了查询以使用reducer(添加分发)。然后,如果我说“减速器的数量= 1”,它的工作原理。但它不适用于其他适用于仅地图作业的参数