如何提高AWS Glue的性能?

时间:2017-12-06 16:43:05

标签: performance amazon-web-services etl aws-glue

我在AWS上工作的时间超过25分钟。我将DPU的数量从10改为100(允许的最大值),工作仍需要13分钟。

有关改善表现的其他建议吗?

3 个答案:

答案 0 :(得分:1)

我注意到了同样的行为。

我的理解是,工作时间包括启动EMR集群,这需要几分钟。所以,如果它需要8分钟(只是一个猜测),那么你的工作时间从17开始 - > 5。

答案 1 :(得分:0)

我们可以看看你的工作吗?有时简单可能无法表现。我们发现使用DynamicFrame.map转换这样的简单事情非常慢,您可能最好使用tmp表并使用SQLContext映射数据

答案 2 :(得分:0)

除非CPU或内存是您现有工作的瓶颈,否则添加更多的DPU(即更多的CPU和内存)将不会对您的工作有明显的帮助。至少收益不会是线性的,即DPU增加10倍并不意味着这项工作将运行10倍。

我建议您逐渐增加DPU的数量以查看性能提高,并且您会注意到,在某个点之后添加更多DPU不会对性能产生重大影响,这可能是正确的DPU数量。你的工作。