应用错误收集

Hadoop：多个地图任务如何确保它们不竞争资源？

时间：2012-10-24 05:11:44

标签： hadoop mapreduce

我将在Hadoop中同时运行3个作业，它们是无关的。

其中一个的输入是通过HTTP，慢下载的大文件。

其他人是来自HDFS 和S3N文件系统的输入。

我很想在Hadoop中构建这种东西。

如何优化地图阶段？

似乎合乎逻辑的是，我希望磁盘读取至少发生同时下载正在发生。

我肯定不希望所有大磁盘操作 等待下载（每次下载20次可能是一小时）< / LI>
我认为我不想在同时发生多个，大的，磁盘读取。

这个地图/输入/数据采集阶段如何由Hadoop处理？

1 个答案:

答案 0 :(得分：0)

在mapreduce中，通常所有地图/缩减器都做同样的工作。

但您可以通过两种不同的解决方案实现目标：

1.基本上，您应该考虑将作业分成两个独立的作业，然后以每个节点指定的任务数启动它们。 https://issues.apache.org/jira/browse/HADOOP-5170但此修补程序仅适用于cdh，而不适用于基本分发。

2.另一种选择是实现自己的输入格式，它将能够编码地图操作并平衡每个节点不同任务的数量。这可以通过在InputSplit中为每个拆分指定主机来完成。

相关问题

如何确保与多个竞争消费者的信息幂等性？

Hadoop - 在xml中增加map任务不会增加运行时的map任务

Hadoop：多个地图任务如何确保它们不竞争资源？

Hadoop - 在完成reduce任务后，map任务继续

并行运行多个地图任务

Hadoop分区映射任务

如何从几个仅地图任务创建单个分布式内存映射？

使用地图任务并行实例化减少任务

Hadoop MapReduce：如何确保所有节点之间并行执行多个任务

如何划分map-reduce任务？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？