应用错误收集

（Azure）数据湖

时间：2017-03-27 06:08:18

标签： azure metadata azure-data-lake database-metadata data-lake

据我所知，data-lake解决方案用于存储从原始格式的原始数据到处理数据的所有内容。我无法理解（Azure）数据湖中元数据管理的概念。处理数据湖中的元数据的最佳做法是什么？

是否有任何机制可以自动读取元数据（例如，从头文件中读取），如果是，是否有任何方法可以查看和编辑此元数据（可能是以编程方式执行此操作的API）？我担心如果没有适当的管理，这个湖泊就会出现问题。将转向数据坟墓＆＃34;。一种解决方案可能是创建一个自己的数据库，我自己存储每个文件的元数据。还有其他更先进的方法吗？

2 个答案:

答案 0 :(得分：0)

这是一个非常广泛的问题，我将尽力回答。通常，您尝试按逻辑区域和可识别的拥有团队组织数据湖存储中的数据。可以在Azure数据目录中编目数据以进行发现和丰富。目前，我们没有任何自动功能可以将数据发布到数据目录中。数据所有者必须手动将其发布到ADC。如果此区域中有特定功能，请在此处提交并提交：https://feedback.azure.com/forums/327234-data-lake

答案 1 :(得分：0)

Library classification应该被认为是在数据湖中排序数据的最佳实践方法，因为图书馆分类系统会按分离的类别对信息/知识/数据进行排序。

从技术上讲，您可以在（文件-）名称/（文件-）路径中使用分离的类别信息，或将其作为标头信息或属性包含在文件中。在Azure中，在向Azure Data Catalog中的数据添加标签时，还可以应用库分类方法。