我可以控制AWS Glue服务中DPU的数量吗?
我在官方文档中读到Glue有六个DPU,但我最多不需要六个DPU。 另外,恐怕会付出高昂的代价。
答案 0 :(得分:1)
您可以指定数字并键入worker。来自documentation的引用:
工人类型
以下工作者类型可用:
标准–选择此类型时,还将提供“最大容量”值。最大容量是AWS Glue数据的数量 运行此作业时可以分配的处理单元(DPU)。一种 DPU是由4个vCPU组成的相对处理能力的度量 计算容量和16 GB内存。标准工作者类型具有 一个50 GB的磁盘和2个执行程序。
G.1X –选择此类型时,还将提供“工人数”的值。每个工作人员都映射到1个DPU(4个vCPU,16 GB内存, 64 GB磁盘),并且每个工作人员提供1个执行程序。我们推荐这个 占用大量内存的作业的工作类型。
G.2X –选择此类型时,还将提供“工人数”的值。每个工作人员都映射到2个DPU(8个vCPU,32 GB内存, 128 GB磁盘),并为每个工作人员提供1个执行程序。我们推荐这个 内存密集型作业和运行ML转换的作业的工作类型。
根据用于运行ETL作业的DPU的数量向您收取小时费。有关更多信息,请参阅AWS Glue定价页面。
当您使用控制台配置作业并指定标准的“工作”类型时,将设置“最大容量”和“最大数量”。 worker变为最大容量-1的值。如果您使用AWS 命令行界面(AWS CLI)或AWS开发工具包,您可以指定最大 容量参数,或者您可以同时指定Worker类型和Number 工人。有关更多信息,请参见作业。
工人人数
运行作业时分配的已定义workerType的工作程序数。 对于G.1X和G.2X工作程序类型,必须指定该类型的工作程序数。 对于G.1X,您可以定义的最大工人数量为299;对于G.2X,您可以定义的最大工人数量为
。
答案 1 :(得分:0)
运行Glue作业所需的最低DPU是2。您不需要总是有六个DPU来执行您的胶水作业。
要正确规划容量,请参阅this。