Question

我拥有AWS Redshift中所需的数据。它在一个名为Lz（Landingzone）的数据库中。该数据插入到名为Stage的数据库中（相同的redshift）。我有（选择）查询，可以将数据从原始状态（LZ）转换为所需的维度和事实。传统上，我将这些查询与插入内容结合使用以转换数据。结果将被合并到数据仓库中（再次：相同的红移）

我如何在Glue中做到这一点？我可以使用python在作业中执行查询吗？还是我可以在redshift中创建由作业执行/从作业执行的存储过程？

Answer 1

不幸的是，我不认为您可以立即从胶水以预定的方式运行redshift sql。我认为这是该产品的主要遗漏。

有一个使用前/后语句的选项，如本文所述。这是非常基本的操作，可能无法满足您的需求。

https://aws.amazon.com/premiumsupport/knowledge-center/sql-commands-redshift-glue-job/

您可以使用“适当的”调度产品（例如气流）或crontab和bash脚本来执行以下操作 1）监视您的胶水作业（从属作业）的状态 2）在redshift上运行sql

您还可以使用cloudwatch（监视胶水完成情况）和lambda（运行redshift sql）来代替，但是由于lambda作业的运行时间限制（时间可能少于您需要完成redshift sql）

如何在AWS Glue中运行查询

1 个答案: