鉴于大文件A,我需要迭代该文件的记录和每条记录
因此输出将包含一组带有记录的文件,按状态分组,以及一些带有状态列表的文件
理想情况下,它应该
这可能与hadoop有关吗?我发现如何使用此example为每条记录生成文件名,但不知道如何分隔记录和枚举状态。
我事先并不知道哪些状态可能存在于这些记录中。
答案 0 :(得分:0)
在地图阶段,您可以为每条记录执行2次点击:<list_statuses, status>
。 'list_statusses'必须是您事先选择的唯一键。然后在reduce阶段,你的行为取决于键,如果它等于你的特殊键,那么你发出一个带有状态的文件(这个reduce函数会将所有状态存储在一个Set中),否则生成<status,field>
文件。
这对你有意义吗?