Apache在窗口期间进行多次写入

时间:2019-10-25 16:46:13

标签: apache-beam apache-beam-io

我有一个流作业,该作业从kafka主题中读取avro有效负载,并用Windows写下。一切正常,直到数据不兼容为止。我的意思是,如果架构的版本不同。因此,在一个窗口(一分钟)内,例如,我需要按键对收集的所有数据进行分组。我的输出将是一个映射,键是版本,值是数据的集合。现在我要刷新所有数据(多次写入)。因此,写入次数将等于映射的大小。

我的1分钟窗口收集了数据并进行了分组,输出将是:

Map [(1,Array(payload,payload,payload),2,Array(payload,payload)),...]。 令映射的大小为4(架构的4个版本)。因此,如果需要使用输出填充名称进行4次写入(例如 schema-dateStart-dateEnd-version )。如何实现,有没有可能?

现在对于每个窗口一次写入,我使用DynamicAvroGenericRecordDestinations,并且效果很好。

0 个答案:

没有答案