转换MongoDB中的特定记录组

时间:2018-07-30 08:20:03

标签: apache-flink

我有一个定期触发的批处理作业,它将数据写入MongoDB。这项工作大约需要10分钟,之后,我希望接收此数据并使用Apache Flink进行一些转换(映射,过滤,清理...)。记录之间有一些依赖关系,这意味着我必须一起处理它们。例如,我要转换客户ID为45666的最新批处理作业中的所有记录。结果将是一个汇总记录。

是否有任何最佳实践或方法可以实现而不自己完成所有工作(从最新工作中获得与众不同的客户ID,为每个客户选择记录并进行转换,标记转换后的客户等...)?

我无法流式传输它,因为我必须将多个记录一起转换而不是一个一个地转换。

目前,我正在使用Spring Batch,MongoDB,Kafka并考虑使用Apache Flink。

1 个答案:

答案 0 :(得分:0)

可以想象,您可以将MongoDB变更流连接到Flink,并将其用作您描述的任务的基础。不能排除使用Flink流涉及10-35 GB数据这一事实,因为您可以将Flink配置为在状态不适合堆时溢出到磁盘。

在断定这是一种明智的方法之前,我想更好地了解这种情况。