更新hadoop mapreduce中的全局变量

时间:2014-12-30 10:33:32

标签: hadoop mapreduce

我的要求是在MR作业输出中附加每个输入记录的计数。为此,我需要一个全局计数器,所有映射器/缩减器都可以使用它来读取它并将其递增1.后面的映射器/缩减器应该获得计数器的最新值。怎么做到这一点?

1 个答案:

答案 0 :(得分:0)

正如所讨论的,由于要求是在巨大的文本文件中添加行号,因此我使用了以下策略。

案例1

使用一个减速器映射Reduce(如评论中所述)

案例2

我使用了蜂巢。

创建一个只有一列的表

create table t1(value string);

将文件加载到表中;

load data inpath 'hdfs file path' into table t1;

使用hive contrib jar来触发UDF

add jar <hivehomedirectory>/lib/hive-contrib-version.jar;
create temporary function row_num as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';

将查询输出重定向到hdfs文件

insert overwrite directory 'a hdfs dir' select row_num(),value from t1;

这为我创建了一个包含2列,行号和行内容的文件。