我用AWS胶水对1mb的数据进行了作业。需要2.5秒才能完成。
Pyspark框架用于该工作。
因此,以1gb的数据完成该工作大约需要2.5 * 1000 = 2500秒。
但是,当我以1gb的数据运行作业时,只用了20秒。 这怎么可能?
答案 0 :(得分:1)
默认情况下,Glue作业配置为与10个DPU一起运行,其中每个DPU具有16 GB RAM和4个vCore。因此,就您而言,即使您使用2个DPU运行该作业,您仍在利用群集。
执行时间并没有像您所计算的那样真正起作用,并且还有很多其他因素。如果您想了解有关为Glue淘选资源的更多信息,请参考this链接。