有没有人知道任何列出所有操作员的Apache pig文档(如分组,流等)以及PIG采取的相应操作,即操作员导致的MR作业的类型/数量?
我对流方面特别感兴趣,它如何映射到MR作业。
答案 0 :(得分:0)
然而,不是一个完整的清单,但我认为值得阅读以下文章/部分:
在Map-Reduce之上构建高级数据流系统:Pig Experience
(第4节。编译到MapReduce)
http://infolab.stanford.edu/~olston/publications/vldb09.pdf
Pig Latin:数据处理的一种不那么外语的语言
(第4.2章地图减少计划编制)
http://infolab.stanford.edu/~olston/publications/sigmod08.pdf
此外,您始终可以在脚本上发出EXPLAIN或ILLUSTRATE 看看幕后会发生什么。