Redshift中使用请求库的Python UDF

时间:2019-07-17 20:29:00

标签: amazon-redshift

说我的Redshift集群中有一个订单表和一个客户表。由于数据的摄取方式I,订单没有要加入的客户ID,他们有客户令牌。假设我还有一个API端点,可以将该令牌转换为客户ID以加入所述表。现在,我知道我可以在集群中创建一个Python UDF,在这里我可以使用请求库来调用API并获取客户ID,因此查询最终看起来像:

select *
from orders o
join customers c
on my_udf(o.customer_token) = customer_id

到目前为止,一切都很好。现在,我的问题涉及性能部分。我知道如果我有1000个订单,则有1000个API调用,但是,请求将是连续的吗?平行?我需要确定如何将工作负载扔给API来衡量它是否可以承受。如果是连续的,那只会很慢,但是如果是并行的,则运行API的服务器可能会不堪重负。

重要:由于无法控制的原因,我无法在集群中创建映射表,这是不可能的。而且,实际体积不是1000,更像是几百万。

0 个答案:

没有答案