我打算将AWS Glue用于我的ETL流程,并编写自定义python代码并作为AWS Glue Job运行。
我在AWS Glue文档中发现,默认情况下,AWS Glue每个作业分配10 DPU。作业的DPU最大限制,(我在LIMITs部分没有看到任何内容,即每个DPU最大值)工作限制)。
或者是否存在以MB / GB为单位的最佳数据大小,建议避免任何内存不足错误问题。请澄清。
感谢。
答案 0 :(得分:2)
根据Glue API文档,每个作业执行最多可以分配100个DPU。
AllocationCapacity –数字(整数)。 分配给该作业运行的AWS Glue数据处理单元(DPU)的数量。可以分配2至100个DPU;默认值为10。DPU是处理能力的相对度量,由4个计算容量的vCPU和16 GB内存组成。有关更多信息,请参阅AWS Glue定价页面。
答案 1 :(得分:0)
对于Python Glue作业(OP计划实现)的限制不同,在这些作业中,您最多可以拥有1个DPU。以下是official documentation(截至2019年8月)
运行此作业时可以分配的最大AWS Glue数据处理单元(DPU)数。 DPU是处理能力的相对度量,由4个计算能力的vCPU和16 GB内存组成。有关更多信息,请参阅AWS Glue定价页面。
您可以将值设置为0.0625或1。默认值为0.0625。