我正在研究数据工厂POC,以取代将数据从一个系统加载到另一个系统的现有数据集成解决方案。现有解决方案将所有可用数据提取到当前时间点,然后在连续运行时提取自上次运行以来更改的新/更新数据。首先是IDL(初始数据加载)然后更新。
数据工厂的工作方式有些类似,并在切片中提取数据。但是我需要第一个切片来包含从开始时间开始的所有数据。我可以说管道开始时间是"时间的开始",但这会产生太多的切片。
例如,我希望它每天运行并获取每日增量。但我想先提取过去10年的数据。我不想创造3650片来赶上。我希望第一个切片覆盖WindowStart参数并设置为过去的某个预定点。然后连续切片使用正常的WindowStart-WindowEnd时间间隔。
有没有办法实现这个目标?
谢谢!
答案 0 :(得分:0)
如何创建两个管道,一个作为"运行一次"它传输所有初始数据,然后克隆该数据,因此您复制管道中的所有数据集和链接的服务引用。然后将计划添加到它,以及SQL查询以仅获取使用日期变量的新数据?你在第二个管道中需要这样的东西:
"source":
{
"type": "SqlSource",
"SqlReaderQuery": "$$Text.Format('SELECT * FROM yourTable WHERE createdDate > \\'{0:yyyyMMdd-HH}\\'', SliceStart)"
},
"sink":
{
...
}
希望这是有道理的。