apache光束是否允许减少每个分区的操作?
更多情况下,我想了解一下是否有可能在将apache Beam聚合到分区中的数据之前,将数据改组到一个节点以进行最终的聚合?
答案 0 :(得分:0)
通过一些猜测,如果我正确理解了您的问题,则意味着1)先进行有限范围(即每个分区/分片)的混洗,然后减少,然后2)在不同分区之间的交叉/混洗,然后再减少。
在大多数情况下,除非执行步骤1)减少操作,否则这样做将无济于事,从而大大减少了上述步骤2)洗牌所需的数据传输量。如果是这种情况,请考虑使用“组合”。在引擎盖下,联合收割机(几乎)与您的建议相同。