排队和Mapreduce

时间:2012-01-11 16:43:56

标签: hadoop priority-queue

我见过大数据排队作业,这些作业对于实时工作具有高效性,因为它们可以生成容易消耗的数据。 Map / Reduce作业(hadoop)具有不同的原因:它们处于脱机状态,允许大规模并行数据连接和聚合。

但是,我想知道 - 是否有任何大数据摄取系统能够与实时数据源一起实现map / reduce样式并行性?

具体地说,这意味着(在hadoop中),允许读取和写入以及尚未完成的“部分”输出文件的聚合。

1 个答案:

答案 0 :(得分:1)

查看HStreaming用户MR范例。我没有使用它们,所以我不知道它的优点和缺点。

  

用于实时和批处理的通用代码库和工具。

     

HStreaming可以使用相同的MapReduce和Apache Pig算法和函数进行实时或批处理。现有的代码(如用户定义的函数(UDF))可以迁移到流处理,没有或只有很小的变化,而不是不断变化的业务需求。

如果不是MR,则有S4Storm(称为实时处理的Hadoop),StreamBaseHPCC以及其他实时处理选项。< / p>