Question

我正在运行一个要处理800K文件的数据流作业。职位ID为2018-08-23_07_07_46-4958738268363865865409。

它报告说它已经成功列出了800K个文件，但是由于某种奇怪的原因，自动缩放器仅为其分配了1个工作线程。由于它的处理速度是2 /秒，这将花费很长的时间。我没有触摸默认的缩放器设置，据我所知，它可以自由缩放多达100个工人。为什么不缩放？

谢谢

Tomer

更新：遵循Neri的建议，我开始了一项新工作（id 2018-08-29_13_47_04-1454220104656653184）并设置autoscaling_algorithm = THROUGHPUT_BASED，即使根据文档它仍应默认为该值。行为相同。处理速度为每秒1个元素，而我只有一名工人。

如果无法扩展，在云中运行有什么用？

Answer 1

为了进行autoscale your Dataflow Job，请确保使用autoscalingAlgorithm = THROUGHPUT_BASED。

如果您使用“ autoscalingAlgorithm”：“ NONE”，则即使Dataflow作业可以自动缩放，也会被卡住。否则，您将需要在numWorkers上指定所需的工作人员数量。

此外，要扩展到所需的工人数量，请确保指定（对于numWorkers和maxNumWorkers）等于或小于配额的数字，请使用以下方法检查您的配额：

gcloud compute project-info describe

Google Cloud DataFlow自动缩放不起作用

1 个答案: