我注意到有一个允许指定机器类型的选项。 我应该使用什么标准来决定是否覆盖默认的机器类型?
在一些实验中,我发现较小的实例吞吐量更好,但另一方面,工作往往体验更多"系统"使用许多小实例而不是少量默认实例时失败。
谢谢, ģ
答案 0 :(得分:2)
Dataflow最终将为您优化机器类型。与此同时,我可以想到一些可能需要更改机器类型的方案。
如果您的ParDO操作需要大量内存,您可能需要将机器类型更改为Google Compute Engine提供的高内存机器之一。
优化成本和速度。如果CPU利用率低于100%,则可以通过选择CPU较少的计算机来降低作业成本。或者,如果您增加机器数量并减少每台机器的CPU数量(因此总CPU保持大致不变),您可以使您的工作更快地运行,但成本大致相同。
请详细说明您看到的系统故障类型?一大类故障(例如VM中断)是概率性的,因此随着机器数量的增加,您可能会看到更大的绝对故障数。但是,像VM中断这样的失败应该是相当罕见的,所以如果你注意到增加,我会感到惊讶,除非你使用的数量级更多的虚拟机。
另一方面,由于使用更多机器的并行性增加,由于资源争用,您可能会看到更多故障。如果是这种情况,我们真的想了解它,看看这是否是我们可以解决的问题。