需要更新哪个Compute Engine配额才能使用50个工作程序(IN_USE_ADDRESSES,CPUS,CPUS_ALL_REGIONS ..)运行Dataflow?

时间:2019-11-16 16:57:49

标签: google-compute-engine google-cloud-dataflow quota

我们正在使用私人GCP帐户,我们希望处理30 GB的数据并使用SpaCy进行NLP处理。我们想使用更多的工人,因此决定从最多80名工人开始,如下所示。我们提交了工作,但一些GCP标准用户配额出现了问题:

QUOTA_EXCEEDED: Quota 'IN_USE_ADDRESSES' exceeded.  Limit: 8.0 in region XXX

distribution of the workers in Dataflow

因此,我决定在某个区域为IN_USE_ADDRESSES请求新的50个配额(花了我很少的迭代才能找到可以接受此请求的区域)。我们提交了新工作,并遇到了新的配额问题:

QUOTA_EXCEEDED: Quota 'CPUS' exceeded.  Limit: 24.0 in region XXX

QUOTA_EXCEEDED: Quota 'CPUS_ALL_REGIONS' exceeded.  Limit: 32.0 globally

enter image description here

我的问题是,例如,如果我想在一个地区使用50名工人,我需要更改哪些配额?文档https://cloud.google.com/dataflow/quotas似乎不是最新的,因为他们只说“要使用10个Compute Engine实例,您需要10个使用中的IP地址。”。如您所见,这还不够,还需要更改其他配额。是否有文档,博客或其他文章可以记录和解释?仅针对一个地区,就有49个Compute Engine配额可以更改!

1 个答案:

答案 0 :(得分:3)

我建议您开始使用专用IP而不是公用IP地址。这将以两种方式为您提供帮助:-

  1. 您可以绕开某些与IP地址相关的配额,因为它们与公用IP地址有关。
  2. 通过消除网络出口成本来显着降低成本,因为VM不会通过公共Internet相互通信。您可以在这篇出色的文章中找到更多详细信息[1]

要开始使用私有IP,请按照此处[2]的说明进行操作

除此之外,您需要注意以下配额

CPU

您可以通过在CPUs下适当设置Compute Engine配额来增加给定区域的配额。

永久磁盘

默认情况下,每个VM需要250 GB的存储,因此,对于100个实例,它将约为25TB。请检查您正在使用的工作程序的磁盘大小,并在Persistent Disk下适当设置Compute Instances配额。

Cloud Dataflow Shuffle批处理管道的默认磁盘大小为25 GB。

托管实例组

您需要考虑到您在该区域中有足够的配额,因为Dataflow需要以下配额:-

  1. 每个Cloud Dataflow作业一个实例组
  2. 每个Cloud Dataflow作业一个托管实例组
  3. 每个Cloud Dataflow作业一个实例模板

一旦您查看了这些配额,就应该准备好运行该作业。

1-https://medium.com/@harshithdwivedi/how-disabling-external-ips-helped-us-cut-down-over-80-of-our-cloud-dataflow-costs-259d25aebe74

2-{{​​3}}