AWS Glue什么是ETL的最佳数据大小

时间:2018-06-18 21:29:01

标签: amazon-web-services aws-glue

我打算将AWS Glue用于我的ETL流程,并编写自定义python代码并作为AWS Glue Job运行。

我在AWS Glue文档中发现,默认情况下,AWS Glue每个作业分配10 DPU。作业的DPU最大限制,(我在LIMITs部分没有看到任何内容,即每个DPU最大值)工作限制)。

或者是否存在以MB / GB为单位的最佳数据大小,建议避免任何内存不足错误问题。请澄清。

感谢。

2 个答案:

答案 0 :(得分:2)

根据Glue API文档,每个作业执行最多可以分配100个DPU。

  

AllocationCapacity –数字(整数)。   分配给该作业运行的AWS Glue数据处理单元(DPU)的数量。可以分配2至100个DPU;默认值为10。DPU是处理能力的相对度量,由4个计算容量的vCPU和16 GB内存组成。有关更多信息,请参阅AWS Glue定价页面。

答案 1 :(得分:0)

对于Python Glue作业(OP计划实现)的限制不同,在这些作业中,您最多可以拥有1个DPU。以下是official documentation(截至2019年8月)

  

运行此作业时可以分配的最大AWS Glue数据处理单元(DPU)数。 DPU是处理能力的相对度量,由4个计算能力的vCPU和16 GB内存组成。有关更多信息,请参阅AWS Glue定价页面。

     

您可以将值设置为0.0625或1。默认值为0.0625。