我想运行生成的HIVE查询列表。 对于每一个,我想检索MR job_id(或者在多个阶段的情况下为id)。 然后,使用此job_id,从作业跟踪器收集统计信息(累计CPU,读取字节...)
如何从bash或python脚本发送HIVE查询,并检索job_id?
对于第二部分(收集作业的统计数据),我们使用的是MRv1 Hadoop集群,因此我没有AppMaster REST API。我即将从jobtracker Web UI收集数据。还有更好的主意吗?
答案 0 :(得分:3)
您可以通过运行此命令获取执行的作业列表
hadoop job -list all
然后对于每个job-id,您可以使用命令检索统计信息, hadoop job -status job-id
要将作业与查询相关联,您可以获取job_name并将其与查询匹配。 像这样的东西, How to get names of the currently running hadoop jobs?
希望这会有所帮助。