在映射阶段中间拆分文件并将其传递给另一个映射器

时间:2013-12-10 06:18:13

标签: hadoop mapreduce distributed-computing

我可以拆分映射器正在处理的文件,并在遇到特定句子时将其余部分发送给另一个映射器吗?是否有可能在映射之间拆分文件?请指导我这个。

我的数据文件格式如下:

  1. 以“#”开头的行包含数据记录的“年份”和包含该特定“年份”数据的后续行的“数字”
  2. 后续行记录每天的温度,而不记录一年中的所有日期。所以这些行的数量可能不同
  3. 我想找到每年的最高温度。 我怎么做,因为我不知道我的数据文件在哪些部分被分割?

0 个答案:

没有答案