记录主动泄漏在Hadoop猪?

时间:2012-09-11 22:37:25

标签: join hadoop apache-pig

我是Hadoop的新手,并对我的猪脚本中的命令行消息感到好奇。

Total records written : 7676
Total bytes written : 341396
Spillable Memory Manager spill count : 103
Total bags proactively spilled: 39
Total records proactively spilled: 32389322

最终结果表明是“成功!”。我还不确定。这些数字意味着什么?

感谢。

1 个答案:

答案 0 :(得分:5)

前两个显示MR作业写入HDFS的总记录/字节数 可能会发生这样的情况:在MR作业期间并非所有记录都适合内存。 溢出计数器指示已将多少条记录写入数据节点的本地磁盘,以避免内存不足。

Pig使用两种方法来控制内存使用情况,并在必要时进行泄漏:

1。 Spillable Memory Manager

这就像是一个可以注册溢出袋的中心位置。如果内存不足,这位经理 浏览已注册的行李列表并执行GC


2。 主动(自我)溢出:

如果达到内存限制,行李也会自行泄露(参见pig.cachedbag.memusage


返回您的统计数据:

  • 主要溢出的行李总数:已经溢出的行李数量
  • 主动泄漏的总记录:这些行李中的记录数

自从大量溢出后检查工作的泄漏统计数据总是好的 可能表示巨大的性能损失需要avoided