TFX Evaluator 不在 Dataflow 中运行,因此由于 Pod 内存不足而失败

时间:2021-05-20 18:01:34

标签: google-cloud-dataflow tfx kubeflow-pipelines google-cloud-ai-platform-pipelines

我正在基于 TFX 的 AI Platform 管道中运行管道。在 Evaluator 之前,所有组件都运行良好。它只是不想在 Dataflow 上运行,它在 Kubeflow pod 中运行,因此由于那里没有足够的内存而失败。

Apache Beam 配置设置为使用 Dataflow 作为运行器运行,因此 ExampleGen、StatisticsGen、ExampleValidator 等其他组件都可以在 Dataflow 中正常运行。

当涉及到 Evaluator 组件时,它甚至没有生成日志就失败了。抱怨错误(在 Kubeflow UI 中):

"此步骤处于失败状态,并显示以下消息:节点资源不足:内存。容器主使用 2093880Ki,超过其请求 0。容器等待使用 13492Ki,超过其请求 0 .”

1 个答案:

答案 0 :(得分:0)

我能够通过将 TFX 版本设置为 0.25.0 来解决这个问题。

相关问题