我正在运行一个要处理800K文件的数据流作业。 职位ID为2018-08-23_07_07_46-4958738268363865865409。
它报告说它已经成功列出了800K个文件,但是由于某种奇怪的原因,自动缩放器仅为其分配了1个工作线程。由于它的处理速度是2 /秒,这将花费很长的时间。 我没有触摸默认的缩放器设置,据我所知,它可以自由缩放多达100个工人。 为什么不缩放?
谢谢
Tomer
更新: 遵循Neri的建议,我开始了一项新工作(id 2018-08-29_13_47_04-1454220104656653184)并设置autoscaling_algorithm = THROUGHPUT_BASED,即使根据文档它仍应默认为该值。行为相同。处理速度为每秒1个元素,而我只有一名工人。
如果无法扩展,在云中运行有什么用?
答案 0 :(得分:0)
为了进行autoscale your Dataflow Job,请确保使用autoscalingAlgorithm = THROUGHPUT_BASED。
如果您使用“ autoscalingAlgorithm”:“ NONE”,则即使Dataflow作业可以自动缩放,也会被卡住。否则,您将需要在numWorkers上指定所需的工作人员数量。
此外,要扩展到所需的工人数量,请确保指定(对于numWorkers和maxNumWorkers)等于或小于配额的数字,请使用以下方法检查您的配额:
gcloud compute project-info describe