Redshift:从字符串

时间:2016-09-05 14:29:22

标签: sql dynamic amazon-redshift

我想在Amazon Redshift上执行存储在字符串字段中的动态SQL查询。

我的背景主要是T-SQL关系数据库。我曾经动态地构建SQL语句,将它们存储到变量中并执行它们。我知道Redshift可以准备和执行语句,但我想知道是否可以执行存储在字符串字段中的查询。

我有一段代码使用pg_ *系统表在几个表上使用stats动态构建下面的代码。每个列/表名都是动态计算的。这是查询输出的一个示例:

SELECT h_article_id AS key, 'transport_parameters_weight_in_grams' AS col_name, COUNT(DISTINCT transport_parameters_weight_in_grams) AS count_value FROM dv.s_products GROUP BY h_article_id UNION ALL
SELECT h_article_id AS key, 'transport_parameters_width_in_mm' AS col_name, COUNT(DISTINCT transport_parameters_width_in_mm) AS count_value FROM dv.s_products GROUP BY h_article_id UNION ALL
SELECT h_article_id AS key, 'label_owner_info_communication_address' AS col_name, COUNT(DISTINCT label_owner_info_communication_address) AS count_value FROM dv.s_products GROUP BY h_article_id

我想在另一个查询中输入这段动态代码,所以我可以制作一些统计信息,如下所示:

SELECT col_name, AVG(count_value*1.00) AS avg_count
FROM (
  'QUERY ABOVE'
) A
GROUP BY col_name;

这将输出类似:

col_name                                avg_count
transport_parameters_weight_in_grams    1.00
transport_parameters_width_in_mm        1.00
label_owner_info_communication_address  0.60

我这样做的自然方式是将所有内容作为字符串存储在变量中并执行它。但我担心Redshift不支持这一点。

是否有另一种方法可以真正构建动态SQL代码?

3 个答案:

答案 0 :(得分:4)

没有。在Redshift中运行动态构建的SQL代码没有直接的方法。

您无法像在MS SQL Server中那样定义SQL变量或创建存储过程。

您可以创建Python Functions in Redshift,但您将使用Python与SQL进行编码。

您可以使用"PREPARE" and "EXECUTE" statements to run "pre-defined" SQL查询,但在将它们传递给execute命令之前,您必须在数据库之外创建语句。通过在数据库之外创建语句,以某种方式击败目的......您可以用“最喜欢的”编程语言创建任何语句。

正如我所说,这个基于SQL的数据库内动态SQL不存在。

基本上,您需要在应用程序中运行此逻辑或使用AWS Data Pipeline等。

答案 1 :(得分:0)

我在Redshift上使用Postgre,遇到了这个问题并找到了解决方案。

我试图创建一个动态查询,并输入自己的日期。

date = dt.date(2018, 10, 30)

query = ''' select * from table where date >= ''' + str(my_date) + ''' order by date '''

但是,以这种方式键入查询时,查询将完全忽略该条件。

但是,如果使用百分号(%),则可以正确插入日期。

编写以上语句的正确方法是:

query = ''' select * from table where date >= ''' + ''' '%s' ''' % my_date + ''' order by date '''

因此,这可能有所帮助,或者可能没有帮助。希望对我的情况至少有一个帮助!

最良好的祝愿。

答案 2 :(得分:0)

由于我们已经添加了对存储过程的支持,因此这是可能的。 "Overview of Stored Procedures in Amazon Redshift"

例如,此存储过程对一个表中的行进行计数,并将表名和行数插入另一个表中。这两个表名都作为输入提供。

CREATE PROCEDURE get_tbl_count(IN source_tbl VARCHAR, IN count_tbl VARCHAR) AS $$
BEGIN
EXECUTE 'INSERT INTO ' || quote_ident(count_tbl) 
        || ' SELECT ''' || source_tbl ||''', COUNT(*) FROM ' 
        || quote_ident(source_tbl) || ';' 
RETURN;
END;
$$ LANGUAGE plpgsql;

在您的示例中,要执行的查询可以作为字符串传递。