(Azure)数据湖

时间:2017-03-27 06:08:18

标签: azure metadata azure-data-lake database-metadata data-lake

据我所知,data-lake解决方案用于存储从原始格式的原始数据到处理数据的所有内容。我无法理解(Azure)数据湖中元数据管理的概念。处理数据湖中的元数据的最佳做法是什么?

是否有任何机制可以自动读取元数据(例如,从头文件中读取),如果是,是否有任何方法可以查看和编辑此元数据(可能是以编程方式执行此操作的API)?我担心如果没有适当的管理,这个湖泊就会出现问题。将转向数据坟墓"。一种解决方案可能是创建一个自己的数据库,我自己存储每个文件的元数据。还有其他更先进的方法吗?

2 个答案:

答案 0 :(得分:0)

这是一个非常广泛的问题,我将尽力回答。通常,您尝试按逻辑区域和可识别的拥有团队组织数据湖存储中的数据。可以在Azure数据目录中编目数据以进行发现和丰富。目前,我们没有任何自动功能可以将数据发布到数据目录中。数据所有者必须手动将其发布到ADC。如果此区域中有特定功能,请在此处提交并提交:https://feedback.azure.com/forums/327234-data-lake

答案 1 :(得分:0)

Library classification应该被认为是在数据湖中排序数据的最佳实践方法,因为图书馆分类系统会按分离的类别对信息/知识/数据进行排序。

从技术上讲,您可以在(文件-)名称/(文件-)路径中使用分离的类别信息,或将其作为标头信息或属性包含在文件中。在Azure中,在向Azure Data Catalog中的数据添加标签时,还可以应用库分类方法。