我使用mapreduce在Hadoop上工作项目(我有2个数据集KDD和DARPAA),我正在寻找能够将这些数据集分组并排序到一个文件中的算法。
这两个数据集具有以下格式:
@attribute 'urgent' real --------------
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0
我想将这两个数据集合并到一个文件中,首先我要检查文件中是否有任何重复并删除重复行,其次我要将@Attribute组合在一起并将@Data组合在一起。
答案 0 :(得分:0)
Map Side:
必须为KDD编写两个映射器,为DARPAA编写其他映射器。
获取KDD和DARPAA共同的值。
将其作为两个映射器的输出键
整个输入可以作为映射器值输出发送。
根据相应的映射器使用@data或@attribute附加输入。
Reduce Side:
迭代映射器的输出键。
比较附加字符串(KDD或DARPAA)附带的值并执行必要的逻辑。