我已经安排了各种管道,将来自On Premises SQL DB的增量数据复制到Azure Datawarehouse,有时行数存在一些问题,例如行数不匹配或相同的行被复制,我该如何查看哪些行正在被复制到Datawarehouse,以便如果存在冗余或差异,我应该知道。
我知道ADF V1管道监控功能只显示复制过的行数,但没有显示复制过的行数,是否有办法可以找出复制的内容和不复制的内容。
当我们处理有数百万行的表时,这会变得更加困难。
答案 0 :(得分:0)
由于Azure SQL Datawarehouse不支持主键约束,因此您可以创建用于插入新数据的登台表,然后调用存储过程,将新数据与已有数据进行比较,并仅插入新数据行到实际表中。
这不是一个很好的做法,最好的方法是在实际的ETL过程中控制新行的插入,如果你没有这个,你可能会更好地使用支持几乎所有内部部署的Azure SQL服务器sql server支持,而不是仓库。
干杯!
答案 1 :(得分:0)
DW的模式通常是将数据放入阶段表,然后使用T-SQL继续将数据处理到prod表中。使用此模式,您可以在继续处理之前简单地运行SELECT COUNT_BIG(*)FROM以获取登台表中的行计数。