我通过命令行运行我的猪,我希望在运行结束后看到所有Hadoop计数器。 我已经编写了基于此blog写入Hadoop计数器的UDF,但我想测试它 - 当猪开始时我可以看到构造函数中的日志,但后来我看到没有日志
目前我看到的只是简单的静态 - 见下文
Counters:
Total records written : 3487
Total bytes written : 38078
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 101
Total records proactively spilled: 12464701
答案 0 :(得分:0)
Pig作业实际上是一个MapReduce作业,因此您可以从JobTracker页面(如果使用MR1)或Application Master页面(如果使用YARN)查看作业的状态及其完整的计数器列表。
答案 1 :(得分:0)
单个pig脚本可能会根据复杂性创建多个作业。您可以通过运行
从命令行查询所有每个作业的计数器mapred job -status <job-id>
如果您知道您感兴趣的实际计数器,则可以使用
检索单个计数器mapred job -counter <job-id> <group-name> <counter-name>
当然,您需要知道作业ID - 那些应该在原始猪输出中可用的那些行&#39; Job DAG:&#39;