你如何使用MapReduce / Hadoop?

时间:2008-12-01 16:11:29

标签: hadoop mapreduce

我正在寻找有关其他人如何使用Hadoop或其他类似MapReduce技术的一般信息。总的来说,我很想知道您是在编写MR应用程序来处理现有数据集(如Web服务器日志文件),还是编写生成和处理新数据集的应用程序?

修改 后续问题

(1)您是否曾对其他MR程序生成的数据执行MR程序?

(2)您是否需要使用MR修改现有数据集?

(3)您是否曾与其他开发人员共享数据集?

5 个答案:

答案 0 :(得分:9)

查看PowerdBy Hadoop wiki,了解从Facebook到FOX News的所有内容以及他们如何使用它。

答案 1 :(得分:2)

我正在分析现有数据集,在我的案例中是程序员活动的痕迹。

答案 2 :(得分:1)

我使用hadoop作为nutch的一部分,并用于构建/分析网页图表和文本

(1)许多任务无法一次完成,因此需要在MR生成的数据上运行MR是必不可少的。

(2)使用nutch进行爬网时,有时需要过滤或规范化crawldb或其他数据。 (所以,是的)

(3)到目前为止主要是转储或某种结果。到目前为止,还不是“原生”MR数据。

答案 3 :(得分:1)

  

总的来说,我很想知道你是否正在编写MR应用程序   处理现有数据集(如Web服务器日志文件),或者是您   编写生成和处理新数据集的应用程序?

我在MR应用程序中所做的工作涉及处理可用于生成新数据集的现有数据集,其中......

  

(1)您是否曾对其他MR程序生成的数据执行MR程序?

...是的我做。这称为链接Map / Reduce操作,您可以按顺序链接多个map和reduce作业。

  

(2)您是否需要使用MR修改现有数据集?

MR的想法是抛弃现有的数据集,而不是真的必须修改它以便处理和分析信息。我必须这样做的唯一情况是将数据集拆分为包裹。

  

(3)您是否曾与其他开发人员共享数据集?

主动MR应用程序中涉及的许多代码被认为是我的专有代码,因此与其他开发人员共享它是一个问题;如果你想让样本数据集与我推荐的书籍一起使用,那就是Pro Hadoop(Venner),Hadoop in Action(Lam)和Hadoop the Definitive Guide(White)。

答案 4 :(得分:0)

到目前为止,我的两个用途是分析大型行为数据集(从网络,手机和手机上收集)和并行化解决大问题的方法(例如,使用遗传算法在NP-complete中找到局部最优值问题空间)。

在一般情况下,MR流是多阶段的,所以我经常针对早期MR阶段生成的数据运行。