应用错误收集

运行配置单元查询，并收集作业信息

时间：2013-01-30 09:55:03

标签： hadoop automation hive

我想运行生成的HIVE查询列表。对于每一个，我想检索MR job_id（或者在多个阶段的情况下为id）。然后，使用此job_id，从作业跟踪器收集统计信息（累计CPU，读取字节...）

如何从bash或python脚本发送HIVE查询，并检索job_id？

对于第二部分（收集作业的统计数据），我们使用的是MRv1 Hadoop集群，因此我没有AppMaster REST API。我即将从jobtracker Web UI收集数据。还有更好的主意吗？

1 个答案:

答案 0 :(得分：3)

您可以通过运行此命令获取执行的作业列表

hadoop job -list all

然后对于每个job-id，您可以使用命令检索统计信息， hadoop job -status job-id

要将作业与查询相关联，您可以获取job_name并将其与查询匹配。像这样的东西， How to get names of the currently running hadoop jobs?

希望这会有所帮助。