如何在AWS Glue中运行查询

时间:2019-06-02 14:50:39

标签: python postgresql amazon-redshift aws-glue

我拥有AWS Redshift中所需的数据。它在一个名为Lz(Landingzone)的数据库中。 该数据插入到名为Stage的数据库中(相同的redshift)。 我有(选择)查询,可以将数据从原始状态(LZ)转换为所需的维度和事实。 传统上,我将这些查询与插入内容结合使用以转换数据。结果将被合并到数据仓库中(再次:相同的红移)

我如何在Glue中做到这一点?我可以使用python在作业中执行查询吗?还是我可以在redshift中创建由作业执行/从作业执行的存储过程?

1 个答案:

答案 0 :(得分:1)

不幸的是,我不认为您可以立即从胶水以预定的方式运行redshift sql。我认为这是该产品的主要遗漏。

有一个使用前/后语句的选项,如本文所述。这是非常基本的操作,可能无法满足您的需求。

https://aws.amazon.com/premiumsupport/knowledge-center/sql-commands-redshift-glue-job/

您可以使用“适当的”调度产品(例如气流)或crontab和bash脚本来执行以下操作 1)监视您的胶水作业(从属作业)的状态 2)在redshift上运行sql

您还可以使用cloudwatch(监视胶水完成情况)和lambda(运行redshift sql)来代替,但是由于lambda作业的运行时间限制(时间可能少于您需要完成redshift sql)