Question

我通过命令行运行我的猪，我希望在运行结束后看到所有Hadoop计数器。我已经编写了基于此blog写入Hadoop计数器的UDF，但我想测试它 - 当猪开始时我可以看到构造函数中的日志，但后来我看到没有日志

目前我看到的只是简单的静态 - 见下文

Counters:
Total records written : 3487
Total bytes written : 38078
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 101
Total records proactively spilled: 12464701

Answer 1

Pig作业实际上是一个MapReduce作业，因此您可以从JobTracker页面（如果使用MR1）或Application Master页面（如果使用YARN）查看作业的状态及其完整的计数器列表。

Answer 2

单个pig脚本可能会根据复杂性创建多个作业。您可以通过运行

从命令行查询所有每个作业的计数器

mapred job -status <job-id>

如果您知道您感兴趣的实际计数器，则可以使用

检索单个计数器

mapred job -counter <job-id> <group-name> <counter-name>

当然，您需要知道作业ID - 那些应该在原始猪输出中可用的那些行＆＃39; Job DAG：＆＃39;

如何在运行猪时看到所有Hadoop计数器

2 个答案: