我一直在尝试在Dataflow上运行apache beam作业,但是我从GCP收到错误,并显示以下消息:
The job graph is too large. Please try again with a smaller job graph, or split your job into two or more smaller jobs.
我过去使用较大的图表运行,没有任何问题。使用DirectRunner,本地作业也可以正常运行。图表中大约有12个节点,包括从Bigquery步骤读取,WriteToText
步骤和CoGroupByKey
步骤。
有没有办法增加Dataflow愿意接受的图表大小?
答案 0 :(得分:1)
使用小型管道时,最可能的原因是意外地将额外数据序列化到您的DoFns(或其他序列化代码)中。您的主类中是否有任何大型对象自动包含在闭包中?如果是这样,最简单的方法是在静态函数中构建管道。
无法提高图表大小限制。