应用错误收集

时间：2008-12-01 16:11:29

标签： hadoop mapreduce

我正在寻找有关其他人如何使用Hadoop或其他类似MapReduce技术的一般信息。总的来说，我很想知道您是在编写MR应用程序来处理现有数据集（如Web服务器日志文件），还是编写生成和处理新数据集的应用程序？

修改后续问题

（1）您是否曾对其他MR程序生成的数据执行MR程序？

（2）您是否需要使用MR修改现有数据集？

（3）您是否曾与其他开发人员共享数据集？

答案 0 :(得分：9)

查看PowerdBy Hadoop wiki，了解从Facebook到FOX News的所有内容以及他们如何使用它。

答案 1 :(得分：2)

我正在分析现有数据集，在我的案例中是程序员活动的痕迹。

答案 2 :(得分：1)

我使用hadoop作为nutch的一部分，并用于构建/分析网页图表和文本

（1）许多任务无法一次完成，因此需要在MR生成的数据上运行MR是必不可少的。

（2）使用nutch进行爬网时，有时需要过滤或规范化crawldb或其他数据。（所以，是的）

（3）到目前为止主要是转储或某种结果。到目前为止，还不是“原生”MR数据。

答案 3 :(得分：1)

总的来说，我很想知道你是否正在编写MR应用程序处理现有数据集（如Web服务器日志文件），或者是您编写生成和处理新数据集的应用程序？

我在MR应用程序中所做的工作涉及处理可用于生成新数据集的现有数据集，其中......

（1）您是否曾对其他MR程序生成的数据执行MR程序？

...是的我做。这称为链接Map / Reduce操作，您可以按顺序链接多个map和reduce作业。

（2）您是否需要使用MR修改现有数据集？

MR的想法是抛弃现有的数据集，而不是真的必须修改它以便处理和分析信息。我必须这样做的唯一情况是将数据集拆分为包裹。

（3）您是否曾与其他开发人员共享数据集？

主动MR应用程序中涉及的许多代码被认为是我的专有代码，因此与其他开发人员共享它是一个问题;如果你想让样本数据集与我推荐的书籍一起使用，那就是Pro Hadoop（Venner），Hadoop in Action（Lam）和Hadoop the Definitive Guide（White）。

答案 4 :(得分：0)

到目前为止，我的两个用途是分析大型行为数据集（从网络，手机和手机上收集）和并行化解决大问题的方法（例如，使用遗传算法在NP-complete中找到局部最优值问题空间）。

在一般情况下，MR流是多阶段的，所以我经常针对早期MR阶段生成的数据运行。