应用错误收集

您可以在Hadoop中的三个任务中执行此操作：

第一项任务（只有一个减速机）
- Mappers示例数据并将其作为（0，值）对
- Reducer在以后的任务中从配置中读取 r 减少器的数量，按升序对数据进行排序并选择 r - 1 分割点。将它们保存为（null，value）
假设结果存储在hdfs的 partition 目录中。
第二项任务（使用 r reducer）
- Mappers从 partition 读取数据（只有一个文件，每一行都是一个以升序排序的分割点的值）并将其保存在向量中。使用二进制搜索，将数据映射到（p，value），其中 p 是从 0 到 r - 1的数字并表示数据所在的reducer。
- 分区程序是一个标识分区程序 - 对于给定的对（密钥，值），它将其发送到密钥 parititoner。
- Reducer计算从映射器获取的值的数量。将结果保存为（缩减器，大小）对。
假设结果存储在hdfs的 sizes 目录中。
第二项任务（使用 r reducer）
- Mappers - 与任务编号相同。 2
- 分区程序 - 与任务编号相同。 2
- Reducer从 sizes 目录中读取所有reducer窗口的大小。该目录包含的行文件只包含整数对 - 减速器数量和数据大小。计算减速器窗口的总大小，其数量小于当前减速器的数量总计。对数据进行排序，对于 i - 值，将其另存为（总计+ i，值）