Map Reduce中的大数据文件处理

时间:2013-10-02 03:24:54

标签: hadoop mapreduce bigdata

我试图了解Map Reduce的工作原理。所以我所知道的是,Mappers在几台计算机上并行运行并创建一个结果集,然后由Reducers在多台计算机上并行运行以创建预期的数据集。

我的问题是:

  • 一个作业是否运行在固定数量的文件上?所以,在一开始 一个Job,需要处理固定数量的文件 处理并生成一些数据。

  • 如果不是,那么我们如何处理? 可能来自不同来源的数据流 Twitter提要等?

  • 如果是,请说明Map Reduce如何查找 当所有Mappers完成并且Reducing任务应该完成时 开始,因为可能没有参考点。

1 个答案:

答案 0 :(得分:1)

数目:

  1. 是。基本上工作开始,处理文件和结束。没有永远奔跑。

  2. Stream处理可以由Storm或类似处理 技术但不仅仅是Hadoop,因为它是一个批处理系统。您还可以查看Hadoop YarnStorm can work together

  3. 的方式
  4. 应该是一个参考点,因为tasktracker在运行 不同的节点发送正在运行的不同任务(Map tasks / Reduce tasks)的状态信息 定期到工作追踪者,协调工作。