我必须学习使用类似方法调用之类的“艰难方式”
someDataSet.collect()
someDataSet.count()
应避免在flink工作流程的中间进行,因为它们会导致代码的过早执行。这当然不是您想要的,因为flink正在采用懒惰的评估方法。我是否应该避免其他方法调用,因为它们在后台执行了executeEnvironment.execute()?
答案 0 :(得分:1)
有趣的问题,谢谢:)
我查看了源,只有.count()
和.collect()
呼叫.execute()
。但是.print()
和.printToErr()
(可能还有其他打印方法)会调用.collect()
,因此它们也会触发立即执行。