标签: batch-processing apache-beam apache-beam-io
我有100k记录要处理,我每次需要提取10k,处理它们并再提取10k,直到我处理了我称为批处理大小的所有100k记录,以通过提取所有记录来减少每次处理的开销立刻。
关于如何使用Apache Beam实现它的任何建议
我正在使用火花流道。