我正在寻找有关其他人如何使用Hadoop或其他类似MapReduce技术的一般信息。总的来说,我很想知道您是在编写MR应用程序来处理现有数据集(如Web服务器日志文件),还是编写生成和处理新数据集的应用程序?
修改 后续问题
(1)您是否曾对其他MR程序生成的数据执行MR程序?
(2)您是否需要使用MR修改现有数据集?
(3)您是否曾与其他开发人员共享数据集?
答案 0 :(得分:9)
查看PowerdBy Hadoop wiki,了解从Facebook到FOX News的所有内容以及他们如何使用它。
答案 1 :(得分:2)
我正在分析现有数据集,在我的案例中是程序员活动的痕迹。
答案 2 :(得分:1)
我使用hadoop作为nutch的一部分,并用于构建/分析网页图表和文本
(1)许多任务无法一次完成,因此需要在MR生成的数据上运行MR是必不可少的。
(2)使用nutch进行爬网时,有时需要过滤或规范化crawldb或其他数据。 (所以,是的)
(3)到目前为止主要是转储或某种结果。到目前为止,还不是“原生”MR数据。
答案 3 :(得分:1)
总的来说,我很想知道你是否正在编写MR应用程序 处理现有数据集(如Web服务器日志文件),或者是您 编写生成和处理新数据集的应用程序?
我在MR应用程序中所做的工作涉及处理可用于生成新数据集的现有数据集,其中......
(1)您是否曾对其他MR程序生成的数据执行MR程序?
...是的我做。这称为链接Map / Reduce操作,您可以按顺序链接多个map和reduce作业。
(2)您是否需要使用MR修改现有数据集?
MR的想法是抛弃现有的数据集,而不是真的必须修改它以便处理和分析信息。我必须这样做的唯一情况是将数据集拆分为包裹。
(3)您是否曾与其他开发人员共享数据集?
主动MR应用程序中涉及的许多代码被认为是我的专有代码,因此与其他开发人员共享它是一个问题;如果你想让样本数据集与我推荐的书籍一起使用,那就是Pro Hadoop(Venner),Hadoop in Action(Lam)和Hadoop the Definitive Guide(White)。
答案 4 :(得分:0)
在一般情况下,MR流是多阶段的,所以我经常针对早期MR阶段生成的数据运行。