我读到PIG将根据输入文件大小分配减速器的数量。对于每个GB,将分配一个reducer,最大值为999个默认值。(我知道它可以在 pig.exec.reducers.max 中更改) 。如果我使用默认设置处理TB数据,将会发生什么或如何分配Reducer?
答案 0 :(得分:1)
您获得的减速器数量取决于您选择的数量或使用的基本配方(见下文)。您可以通过运行SET default_parallel 20;
来设置此项,例如将其设置为20.请参阅http://pig.apache.org/docs/r0.8.1/piglatin_ref2.html#set
pig.exec.reducers.max
只是一个上限。如果未明确设置reducer的数量,则使用以下公式MIN (pig.exec.reducers.max, total input size (in bytes) / bytes per reducer)
,其中每个reducer的字节由pig.exec.reducers.bytes.per.reducer
设置,默认值为1GB。