适用于Data Lakes的Azure数据治理解决方案方法

时间:2020-05-04 13:40:17

标签: azure azure-data-catalog

我正在评估如何使用Azure Data Catalog为Data Lake批处理转换管道实施Data Governance解决方案。以下是我的处理方法。有任何见解吗?

  1. Data Factory无法捕获从源到Data Lake的沿袭。
  2. 我知道数据目录无法维护Data Lake上数据管理的业务规则。
  3. 首先,在给定业务下从Azure数据目录手动加载数据提要 词汇表等。或者当原始数据提要被摄取到Data Lake中时 存储,要在给定业务下自动创建的资产 词汇表(如果不存在)。
  4. 在湖上进行轻度变换时,原始数据将被清理,分类和标记。因此,需要在数据目录上创建相关标签。 (这是调用Azure数据目录REST API的自定义编码)
  5. 然后,进行ETL处理。通过在数据中添加标签来创建新的数据资产 目录。这些工具基于Spark。 (这是调用Azure数据目录REST API的自定义编码)。最后,数据目录将显示具有正确标签的特定业务词汇表下在Data Lake批处理转换数据管道中创建的所有数据资产。
  6. 我正在跳过操作性元数据和完整沿袭,因为没有这样的内容 Azure产品中的解决方案。这需要再次成为自定义解决方案。

我正在寻找最佳实践。欣赏你的想法。

非常感谢

Cengiz

0 个答案:

没有答案