应用错误收集

我们是Hadoop新手，我们意识到hadoop用于处理大数据，以及笛卡尔产品如何非常昂贵。然而，我们正在进行一些实验，我们正在运行类似于MapReduce设计模式书中的笛卡尔积产品，除了使用减速器计算所有中间结果的平均值（仅包括A * B的上半部分，因此总数为A * B / 2）。我们的设置：3节点集群，块大小= 64M，我们测试了不同的数据集大小 5000分（130KB）到10000分（260KB）。

观察：

1-所有地图任务都在一个节点上运行，有时在主机上运行，有时在其中一个从机上运行，但它从不在多台机器上运行。有没有办法强制hadoop分配分裂因此在机器之间映射任务？基于什么因素剂量hadoop决定哪台机器将处理地图任务（在我们的情况下，一旦它决定了主机，在另一种情况下它决定了一个从机）。

2-在我们针对不同数据大小测试相同作业的所有情况下，我们将获得4个地图任务。 4号的剂量来自？因为我们的数据大小小于块大小，为什么我们有4个分裂而不是1。

3-有没有办法可以查看有关正在运行的作业的精确分割的更多信息。

提前致谢

您使用的是哪个版本的Hadoop？我将假设使用YARN的更高版本。

1）Hadoop应自动在您的群集中分发map任务，而不是支持任何特定节点。它会将map任务放置在尽可能接近数据的位置，即它将在与托管块的DataNode相同的主机上选择NodeManager。如果这样的NodeManager不可用，那么它只会选择一个节点来运行您的任务。这意味着您应该在启动作业时看到所有从属节点都在运行任务。可能还有其他因素阻止Hadoop使用节点，例如NodeManager关闭，或者没有足够的内存来启动特定节点上的JVM。

2）您的文件大小是否略高于64MB？即使超过67,108,864字节的一个字节也会产生两个分裂。 CartesianInputFormat首先计算数据集中所有块的叉积。拥有一个两个块的文件将创建四个分割--A1B1，A1xB2，A2xB1，A2xB2。尝试一个较小的文件，看看你是否还有四个分裂。

3）您可以在ResourceManager的UI中看到正在运行的作业。 https：//：8088将打开主页面（作为MRv1的jobtracker-host：50030），您可以从那里导航到正在运行的作业，这将使您看到正在运行的各个任务。如果您想了解输入格式的具体内容，请在CartesianInputFormat的getSplits方法中添加一些日志语句，然后重新运行代码以查看发生的情况。

关于hadoop拆分如何工作的困惑

1 个答案: