ResourceExhausted:使用Python SDK的数据流通过配额指标自然语言API超出了429个配额

时间:2019-08-15 03:03:57

标签: python-2.7 nlp google-cloud-dataflow apache-beam

我正在构建Dataflow管道,以读取CSV格式,通过Google Cloud NLP API执行情感分析,并将结果发送到BigQuery。

当执行情感分析的功能获得pcollection时,会给我上述错误。

我正在考虑的是将Pcollection拆分为小的Pcollection,以便处理NLP API中的报价限制。

(p
       | 'ReadData' >> beam.io.textio.ReadFromText(src_path)
       | 'ParseCSV' >> beam.ParDo(Analysis())
       | 'WriteToBigQuery' >> ...
)

1 个答案:

答案 0 :(得分:0)

我假设您已启用自动缩放功能,因为默认情况下该功能处于打开状态。尝试将其关闭,然后将工作计数限制设置为5之类的小数值。这将为处理该捆绑包的基础工作线程数提供一个上限。从那里,您可以尝试使用实例类型(内核数)以最大化吞吐量。

默认限制是每分钟600个请求,这非常低。您还可以请求增加NLP的配额。我的建议是同时进行固定池调节和增加配额以拨入挂钟时间目标。