使用纱线和hadoop的各种工作统计2.2.0

时间:2013-12-31 13:16:00

标签: hadoop

我最近使用新的纱线框架安装了2节点的hadoop 2.2.0。

作业运行,所有看起来用餐,但我想知道是否有办法实际验证两个节点都在运行作业而不只是一个(我似乎找不到任何节点) hadoop jar ...命令'输出中有关此问题的相关信息,其中显示了mapreduce完成统计信息。

我还想知道如何验证两个节点都存储DFS的信息。我跑了df,似乎只有一个节点实际存储信息(我hadoop dfs -put大文本文件)。

简而言之:

  1. 如何判断哪些节点实际运行了特定的作业?
  2. 如何判断哪些数据节点实际上包含哪些信息(我使用replication = 2来确保两个节点在阅读一些教程后共享我放在DFS上的信息的负载)。
  3. 对我而言,这对我来说真的很难,因为Hadoop并不像我习惯使用Google的其他主题一样,我最终遇到的大多数主题都没有答案或无关紧要。

    谢谢

1 个答案:

答案 0 :(得分:1)

  1. 您需要检查作业跟踪器Web UI(端口50030) - 从这里您可以列出活动任务跟踪器的数量以及它们运行(并完成,失败)的地图任务数量+错误)。

  2. 您可以使用命令行工具列出块及其位置:

    hadoop fsck <path> -files -blocks -locations

    有关fsck cmd的更多信息,请参阅此链接:http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-common/CommandsManual.html#fsck