我在Google DataFlow中迈出了一步,我希望从外部速率限制API中提取数据。有没有办法在固定数量的工人之间平均分配数据以遵守费率限制? (需要知道工人的数量,以便将速率限制除以该数字)。
答案 0 :(得分:1)
这个问题的答案取决于管道是通过批处理运行程序还是流运行程序运行:
批处理:除了将numWorkers和maxNumWorkers设置为所需的值之外,没有直接控制。这将影响整个管道,而不仅仅是您想要速率限制的阶段
Streaming:UnboundedSource API允许您使用generateInitialSplits()
调用精确指定所需的并行输入拆分数。然后,每个拆分都可以遵守自己的本地速率限制。