如何处理增量和增量Azure数据工厂中的完全上载

时间:2017-03-06 16:33:18

标签: azure azure-data-factory

我们有一个包含2个blob商店的Azure存储帐户。 A Full和A Inc. 在完整版中,我们会在需要完全上传时放置完整的上传CSV文件,在公司中,我们只是逐日放置小型增量CSV文件。 我们首先在分​​段中加载所有数据,然后在ODS中加载到Edw(Enterprise DW)。 只有在表格发生结构变化时才需要完整上传。

基本上两个上传之间的唯一区别是,full还清除了ODS和EDW中的所有数据,但在管道中运行相同的存储过程,......

任何人都有关于如何在Azure数据工厂中处理此类情况的提示。 我不想将数据工厂加倍,但由于输出数据集的可用性/频率不同,我不能使用相同的临时逻辑(在数据工厂中)表作为输出数据集.... / p>

所以提示任何提示......

1 个答案:

答案 0 :(得分:0)

首先要明确的是,ADF就是在那里调用其他Azure服务,它本身并不做任何工作。所以问题确实是;您可以从AD中调用哪些服务来完成这项工作并管理这种情况?

回答这个问题......

选项1:我建议您查看Azure Data Lake。我已经简单地编写了上述USQL中描述的程序,其中参数可以从ADF传递给USQL程序,用于不同类型的行为。

您创建的代码可以存在于Azure Data Lake Analytics数据库中,类似于TSQL对象。然后也许开始使用Azure Data Lake Storage,而不是普通的blob。

选项2:打破C#并创建自己的Azure数据工厂自定义活动,并创建一组类来完全按照您的要求执行操作。再次使用ADF传递的params或在方法中包含逻辑来检查“完全”'表内容。但是,这将涉及更多的开发工作,并且需要用于计算的Azure批处理服务。