我怎样才能看到AWS redshift中存储的元数据,数据沿袭?

时间:2017-05-27 14:58:57

标签: amazon-web-services amazon-redshift hadoop2 database-metadata data-lineage

我正在使用cloudera navigatoratlasWherehows

等解决方案

获取Hadoop,HDFS,HIVE,SQOOP,MAPREDUCE元数据和沿袭。

现在我们在AWS redshift中也有一个数据仓库。有没有办法从redshift中提取元数据或谱系或两者信息。

到目前为止,我还没有找到任何相关内容。

有没有办法将其作为爬行解决方案集成到wherehows?

我发现只有一个post,它提供了一些有关如何从redshift获取信息的信息,假设它与postgresql类似。我相信有人会为这个问题编写一些开源解决方案。 或者只是编写一个简单的单一脚本来提取这些信息? 我正在寻找企业级解决方案。我希望有人能指出我正确的方向。

2 个答案:

答案 0 :(得分:0)

AWS Glue数据目录是一项完全托管的元数据管理服务。它具有AWS Glue爬网程序,该爬网程序会自动爬网您的源(对于您的redshift),并创建一个集中的元数据存储库,供以下人员访问其他AWS服务。

引用:

https://docs.aws.amazon.com/glue/latest/dg/components-overview.html

https://aws.amazon.com/glue/

答案 1 :(得分:0)

您可以通过在Redshift中查询系统表来访问元数据:

https://docs.aws.amazon.com/redshift/latest/dg/cm_chap_system-tables.html

系统表位于每个集群的领导节点上(请参阅我写的guide on the Redshift Architecture

Redshift会滚动删除系统表的内容,因此您需要将该数据存储在集群或另一个单独的集群中以获取历史记录。使用系统表中的数据,您可以获得有关查询及其所涉及的表的信息的基线。

您可以在数据之上放置诸如Kibana或Periscope Data之类的仪表板以对其进行可视化。 Plaid完成了有关他们如何构建内部监控解决方案的文章,其中提供了有关数据沿袭的一些信息:

https://blog.plaid.com/managing-your-amazon-redshift-performance-how-plaid-uses-periscope-data/

但是要获得真实的数据沿袭,您需要了解查询与您的工作流程之间的关系,即针对Airflow DAG。要获取该信息,您需要“标记”查询,以便可以在转换/工作流的上下文中跟踪它们,而不是查看单个查询。

这是我们在产品中内置的功能-请注意这是一种商业解决方案:

https://www.intermix.io/blog/announcing-query-insights/

与系统表中的原始日志不同,我们为您提供了哪些应用程序/工作流正在触发查询,哪些用户正在运行它们以及它们正在访问哪些表的上下文。

  • Lars