标签: mysql pentaho etl
我是所有这些ETL的新手, 我想知道什么是PDI(pentaho数据集成)等工具的最佳解决方案,可以将一些记录从运营数据库同步到数据仓库
我处于近乎实时的环境中(因此我不想每天同步数据1,但每5分钟一次。)
立即找到3种方法:
但我仍然可以错过一些记录或有一些重复等...
使用表格或同步列 例如:SELECT * FROM记录WHERE synced = no
使用队列服务 例如:创建记录时,在rabbitMq(或任何其他工具)中创建一个事件,告诉某事情已准备好同步