我正在设计一个工作流来使用NIFI进行增量提取,源数据库和目标数据库都在MySQL中。处理器 QueryDatabaseTable 和 spiltAvro 和 convertAvroToJson 和 convertJsonToSQL 和 PutSQL 如下图所示
querydatabasetable 的配置参数如下
现在源数据库表只有200条记录,当我启动流程时,流程会重复摄取相同的记录。
我已将最大值列设置为 createTime ,这是时间戳,其值为
2017-12-07 18:48:23
所有200条记录。
我还将最大值列替换为 ID ,但这也导致了同样的问题。 什么可能导致这种重复摄入?
答案 0 :(得分:1)
我取代的 spiltAvro 和<强> convertAvroToJson 和<强> convertJsonToSQL 和<强> PutSQL PutDatabaseRecord 处理器,并且可以使用增量摄取。
流量将如下所示,最大值列属性已设置为ID,time_stamp