我正在构建Dataflow管道,以读取CSV格式,通过Google Cloud NLP API执行情感分析,并将结果发送到BigQuery。
当执行情感分析的功能获得pcollection时,会给我上述错误。
我正在考虑的是将Pcollection拆分为小的Pcollection,以便处理NLP API中的报价限制。
(p
| 'ReadData' >> beam.io.textio.ReadFromText(src_path)
| 'ParseCSV' >> beam.ParDo(Analysis())
| 'WriteToBigQuery' >> ...
)
答案 0 :(得分:0)
我假设您已启用自动缩放功能,因为默认情况下该功能处于打开状态。尝试将其关闭,然后将工作计数限制设置为5之类的小数值。这将为处理该捆绑包的基础工作线程数提供一个上限。从那里,您可以尝试使用实例类型(内核数)以最大化吞吐量。
默认限制是每分钟600个请求,这非常低。您还可以请求增加NLP的配额。我的建议是同时进行固定池调节和增加配额以拨入挂钟时间目标。