扫描外部表(S3数据)时,Redshift Spectrum中的成本控制

时间:2018-08-05 19:28:21

标签: amazon-redshift amazon-athena amazon-redshift-spectrum

雅典娜具有一些默认的service limits,可以帮助〜限制 S3中大型数据湖上意外“失控”查询的成本。它们不是很好(基于〜时间,不是扫描的数据量),但这仍然很有帮助。

红移频谱如何? 它提供的哪些机制可以轻松地用于成本或减轻在针对S3的单个失控查询中“意外”扫描太多数据的风险?解决这个问题的好方法是什么?

1 个答案:

答案 0 :(得分:4)

Amazon Redshift允许您使用WLM Query Monitoring Rules对Spectrum查询执行应用粒度控制。

有2个频谱度量可用:Spectrum scan size(查询扫描的mb数)和Spectrum scan row count(查询扫描的行数)。

您还可以使用Query execution time来设置最大持续时间,但这不仅适用于Spectrum,还适用于所有查询类型。

请注意,这些是抽样指标。查询不会在超出规则的确切点被中止,而是在下一个采样间隔被中止。

如果您已经在集群上运行了Spectrum查询,则可以使用我们的脚本wlm_qmr_rule_candidates来生成候选规则,从而开始使用QMR。生成的规则基于每个指标的第99个百分位。