在以地图缩减模式启动Pig之前,您始终必须先启动历史服务器,否则在尝试执行Pig Latin语句时会生成以下提到的日志:
2018-10-18 15:59:13,709 [main] INFO
org.apache.hadoop.mapred.ClientServiceDelegate - Application state
is completed. FinalApplicationStatus=SUCCEEDED. **Redirecting to job
history server**
2018-10-18 15:59:14,713 [main] INFO org.apache.hadoop.ipc.Client -
Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0
time(s); retry policy is
RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000
MILLISECONDS)
如以上日志中所示,Pig Execution引擎正在尝试与历史服务器连接请解释作业历史服务器在Hadoop中的作用以及为什么需要与Pig中的历史服务器建立连接才能进行Map Reduce工作
答案 0 :(得分:1)
JobTracker或ResourceManager将所有作业信息保留在内存中。对于已完成的作业,它将删除它们以避免耗尽内存。这些过去的作业的跟踪委托给JobHistory服务器。
猪客户端在作业完成时会提取作业计数器统计信息。 Stats可能仍与JobTracker / ResourceManager有关,否则Pig可能需要询问JobHistory服务器。当JobHistory服务器关闭时,它会打印出这些日志消息,但最终客户端应该仍会成功,并且缺少统计信息。