标签: apache-beam
我们有某种简单的DSL(基本上大约有10条命令执行诸如Assign b==3 if a==2之类的命令)。我们有自己的python执行引擎,基本上可以重新实现Beam的功能。因此,我正在考虑更换它。
Assign b==3 if a==2
整个数据转换大约是这些DSL命令的70000。我以为基本上每个命令都将由Beam中的ParDo表示,从而产生一个(自动生成的)Pipeline。这样做是否可行? Beam难道不是更偏向于调用每个步骤都需要高开销的“短”管道吗?欢迎任何建议,谢谢。
ParDo
Pipeline