加入并排序Dataset Hadoop

时间:2015-10-21 13:05:34

标签: sorting hadoop merge mapreduce dataset

我使用mapreduce在Hadoop上工作项目(我有2个数据集KDD和DARPAA),我正在寻找能够将这些数据集分组并排序到一个文件中的算法。

这两个数据集具有以下格式:

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0

我想将这两个数据集合并到一个文件中,首先我要检查文件中是否有任何重复并删除重复行,其次我要将@Attribute组合在一起并将@Data组合在一起。

1 个答案:

答案 0 :(得分:0)

Map Side:

必须为KDD编写两个映射器,为DARPAA编写其他映射器。

获取KDD和DARPAA共同的值。

将其作为两个映射器的输出键

整个输入可以作为映射器值输出发送。

根据相应的映射器使用@data或@attribute附加输入。

Reduce Side:

迭代映射器的输出键。

比较附加字符串(KDD或DARPAA)附带的值并执行必要的逻辑。