我正在评估如何使用Azure Data Catalog为Data Lake批处理转换管道实施Data Governance解决方案。以下是我的处理方法。有任何见解吗?
- Data Factory无法捕获从源到Data Lake的沿袭。
- 我知道数据目录无法维护Data Lake上数据管理的业务规则。
- 首先,在给定业务下从Azure数据目录手动加载数据提要
词汇表等。或者当原始数据提要被摄取到Data Lake中时
存储,要在给定业务下自动创建的资产
词汇表(如果不存在)。
- 在湖上进行轻度变换时,原始数据将被清理,分类和标记。因此,需要在数据目录上创建相关标签。 (这是调用Azure数据目录REST API的自定义编码)
- 然后,进行ETL处理。通过在数据中添加标签来创建新的数据资产
目录。这些工具基于Spark。 (这是调用Azure数据目录REST API的自定义编码)。最后,数据目录将显示具有正确标签的特定业务词汇表下在Data Lake批处理转换数据管道中创建的所有数据资产。
- 我正在跳过操作性元数据和完整沿袭,因为没有这样的内容
Azure产品中的解决方案。这需要再次成为自定义解决方案。
我正在寻找最佳实践。欣赏你的想法。
非常感谢
Cengiz