在复制活动中过滤Blob数据

时间:2019-03-25 20:32:54

标签: azure azure-data-factory azure-data-factory-2

我有一个复制活动,该活动将数据从Blob复制到Azure Data Lake。 Blob由具有事件中心触发器的Azure函数填充。 Blob文件附带UNIX时间戳,这是事件中心中的事件入队时间。每小时都会触发一次Azure数据工厂,以合并文件并将其移至Data Lake。

enter image description here

在源数据集中,我开箱即用UTC时间中的“上次修改日期”进行过滤。我可以使用它,但是它限制了我在Blob中使用上次修改日期。我想使用自己的日期过滤器,并确定要在哪里应用这些过滤器。数据工厂有可能吗?如果是,请您指出正确的方向。

enter image description here

1 个答案:

答案 0 :(得分:1)

无论如何,对于ADF而言,我想到的唯一想法是使用Look Up ActivityForEach ActivityFilter Activity的组合。也许这很复杂。

1。使用查找从blob文件中检索数据。

2。使用ForEach活动来循环结果并设置数据时间过滤器。

3。在ForEach活动中,执行复制任务。

请参阅此blog以获得一些线索。

回顾一下您对现在所有任务的描述,我建议您对Azure Stream Analytics Service有所了解。无论数据源是事件中心还是Azure Blob存储,ASA都将其支持为input。并且它支持output的ADL。

您可以创建一个作业来配置输入和输出,然后根据需要使用流行的SQL language来过滤数据。例如Where运算符或DataTime Functions