Flink-在有限的上下文中处理数据流(如数据集)

时间:2018-09-24 16:17:40

标签: batch-processing apache-flink flink-streaming flink-sql

我需要加入一些文件来执行一些处理。 数据集API是实现此目标的理想方法,当我批量读取文件(csv)时就可以做到这一点

但是在生产环境中,我会以kafka消息(一条消息=文件的一行)的形式接收那些文件。
因此,我正在考虑在文件消息末尾使用全局窗口+自定义触发器以及进程窗口功能。
但是我不能太过分了,因为进程只是一个功能,而链接功能将是一个痛苦。 我不认为在每个进程功能之前在EOF上发出数据流和窗口/触发器都是一个好主意

但是,一旦我收到了所有元素(在全局窗口上的触发器之后)(如数据集API)后,我想以一种有限的方式工作,因为我将加入整个数据集。

我认为使用表API和组窗口也许是个好主意?但您不能在表上具有自定义触发器和全局组窗口?(例如数据流上的全局窗口?)
最好的选择是根据我的过程窗口功能创建一个数据集。.但是我认为这不可能。

最好的问候,

0 个答案:

没有答案