Apache Pig - 处理中间别名?

时间:2015-04-16 06:09:43

标签: hadoop apache-pig

我正在编写一个包含许多操作的冗长的Pig Latin脚本。有时,操作的唯一目的是获得中间关系X,后来转换或丰富到YX停止感兴趣。猪会让X在某处(例如在记忆中或在HDFS中)实现,我是否应该担心"释放" X?或者这是Pig和Hadoop之间的照顾吗?

奖金问题:如果在MapReduce上的猪,猪上的Tez和Spark上的猪之间运行时处理这些中间值有任何有趣的差异,那么也可以了解它。

1 个答案:

答案 0 :(得分:1)

Pig使用Lazy Execution进行评估。懒惰评估的一些功能是

  • 处理仅在DUMP / STORE命令
  • 上进行
  • 允许重新排序以进行优化
  • 内存中流水线

Pig解释器在您提交查询后计算DAG。您可以在grunt shell中使用 EXPLAIN 命令查看pig使用的执行计划。