Question

我使用mapreduce在Hadoop上工作项目（我有2个数据集KDD和DARPAA），我正在寻找能够将这些数据集分组并排序到一个文件中的算法。

这两个数据集具有以下格式：

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0

我想将这两个数据集合并到一个文件中，首先我要检查文件中是否有任何重复并删除重复行，其次我要将@Attribute组合在一起并将@Data组合在一起。

Answer 1

Map Side:

必须为KDD编写两个映射器，为DARPAA编写其他映射器。

获取KDD和DARPAA共同的值。

将其作为两个映射器的输出键

整个输入可以作为映射器值输出发送。

根据相应的映射器使用@data或@attribute附加输入。

Reduce Side:

迭代映射器的输出键。

比较附加字符串（KDD或DARPAA）附带的值并执行必要的逻辑。