在Python ETL代码中,如何实现元数据?

时间:2013-11-04 19:24:48

标签: data-warehouse etl

我有一个Python ETL过程,可以将数据从MySQL数据库移动到Vertica数据仓库。

ETL代码打开从MySQL导出的文件,使用Pythons Pandas库聚合和非规范化数据,并写入稍后加载到Vertica数据仓库中的新文件。代码很简单,工作正常。

我碰巧遇到了关于构建大型企业ETL网络的演示文稿,演示者强调了将元数据包含到流程中的重要性,能够获得有关数据集的元数据和架构信息。但没有具体说明。

这让我觉得我的ETL过程没有任何这样的元数据概念,太过业余,我想结合这个模式元数据概念。一般来说我该怎么做?

演示文稿:https://www.youtube.com/watch?v=1SQWzG3FIu4#t=2418 @ 40:20

0 个答案:

没有答案