Hadoop中的作业历史记录服务器是什么?为什么在Map Reduce模式下启动Pig之前必须先启动历史记录服务器?

时间:2018-10-18 10:46:46

标签: hadoop mapreduce bigdata apache-pig history

在以地图缩减模式启动Pig之前,您始终必须先启动历史服务器,否则在尝试执行Pig Latin语句时会生成以下提到的日志:

  2018-10-18 15:59:13,709 [main] INFO 
  org.apache.hadoop.mapred.ClientServiceDelegate - Application state 
  is completed. FinalApplicationStatus=SUCCEEDED. **Redirecting to job 
  history server**

  2018-10-18 15:59:14,713 [main] INFO  org.apache.hadoop.ipc.Client - 
  Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 
  time(s); retry policy is 

  RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 
  MILLISECONDS)

如以上日志中所示,Pig Execution引擎正在尝试与历史服务器连接请解释作业历史服务器在Hadoop中的作用以及为什么需要与Pig中的历史服务器建立连接才能进行Map Reduce工作

1 个答案:

答案 0 :(得分:1)

JobTracker或ResourceManager将所有作业信息保留在内存中。对于已完成的作业,它将删除它们以避免耗尽内存。这些过去的作业的跟踪委托给JobHistory服务器。

猪客户端在作业完成时会提取作业计数器统计信息。 Stats可能仍与JobTracker / ResourceManager有关,否则Pig可能需要询问JobHistory服务器。当JobHistory服务器关闭时,它会打印出这些日志消息,但最终客户端应该仍会成功,并且缺少统计信息。

相关问题