如何处理或体系结构,Azure数据湖存储中的增量数据提取?

时间:2017-04-19 14:23:51

标签: azure azure-sql-database azure-data-lake

我有两个自定义代码dll,用于与IP摄像头相关的图像。

dll-One :从IP摄像头中提取图像,并将其存储到Azure数据湖存储中。

  • / ADL的/ clinic1 / patientimages
  • / ADL的/ clinic2 / patientimages

dll-two :使用这些图像并从中提取信息并将数据加载到RDBMS表中。

例如在RDBMS中,比如有实体不耐烦,dimclinic和factpatientVisit。

首先,可以将一次性数据导出到Azure数据湖存储中的定义位置。

像:

  • / adls / dimpatient
  • / ADL的/ dimclinic
  • / ADL的/ factpatientVisit

问题: 如何在同一文件中推送增量数据或如何在Azure数据分析中处理此增量负载?

这就像在Azure Data Analytics中实施Warehouse一样。

注意:Azure提供的Azure数据库或任何其他存储都不希望这样。 我的意思是,如果一种类型的存储具有容纳所有类型数据的能力,为什么要花在其他Azure服务上。

adls 是我的ADLS存储空间的名称。

1 个答案:

答案 0 :(得分:1)

我不确定我是否完全理解您的问题,但您可以按时间维度组织Azure Data Lake Store中的数据文件或分区U-SQL表中的行,以便为每个增量添加新的分区/文件。一般来说,我们建议这种增量具有相当大的规模,但要保持扩展能力。