运行配置单元查询,并收集作业信息

时间:2013-01-30 09:55:03

标签: hadoop automation hive

我想运行生成的HIVE查询列表。 对于每一个,我想检索MR job_id(或者在多个阶段的情况下为id)。 然后,使用此job_id,从作业跟踪器收集统计信息(累计CPU,读取字节...)

如何从bash或python脚本发送HIVE查询,并检索job_id?

对于第二部分(收集作业的统计数据),我们使用的是MRv1 Hadoop集群,因此我没有AppMaster REST API。我即将从jobtracker Web UI收集数据。还有更好的主意吗?

1 个答案:

答案 0 :(得分:3)

您可以通过运行此命令获取执行的作业列表

hadoop job -list all

然后对于每个job-id,您可以使用命令检索统计信息, hadoop job -status job-id

要将作业与查询相关联,您可以获取job_name并将其与查询匹配。 像这样的东西, How to get names of the currently running hadoop jobs?

希望这会有所帮助。