是否有针对具有共同尺寸的多个平行进口的最佳实践?

时间:2019-03-26 07:51:57

标签: data-warehouse azure-data-factory databricks azure-databricks azure-sql-data-warehouse

我们面临的问题是,目前我们有2种来源的2种DWH进口。这两个来源都为我们提供了具有唯一ID的设备。如果只有1个导入,它将检查哪些设备已导入,并且仅将新设备从源复制到DWH。 但是,既然我们有两个并行运行的导入,则可能会在DWH中获得重复,因为这两个导入仅针对已导入的设备进行检查,而彼此之间不检查它们要导入的内容。

我们正在使用Azure SQL数据仓库,Azure Databricks和Azure数据工厂。我们正在将设备维度数据从Databricks复制到DWH中的登台表,然后使用存储过程将数据追加到真实表中。

我希望有一个最佳实践,它可以使我们具有多个并行的导入和ETL过程,但最终在DWH中没有重复的数据。

0 个答案:

没有答案