Google Cloud Dataflow卡住了

时间:2018-08-31 13:56:20

标签: google-cloud-dataflow

最近,当我运行以Python编写的数据流作业时,一直出现此错误。问题是它曾经可以正常工作,并且代码没有更改,所以我认为它与环境有关。

  

同步Pod d557f64660a131e09d2acb9478fad42f(“”)时出错,跳过:   使用CrashLoopBackOff无法为“ python”的“ StartContainer”:   “后退20秒钟,重新启动失败的container = python pod = dataflow-)

有人可以帮我吗?

2 个答案:

答案 0 :(得分:1)

Neri,感谢您对SDK的指导。我注意到我的需求文件使用的是旧版本的SDK 2.4.0。我现在将所有内容更改为2.6.0,并且不再卡住。

答案 1 :(得分:1)

就我而言,我在使用Apache Beam SDK 2.9.0版时遇到了同样的问题。

我使用了setup.py,并且通过加载requirements.txt文件的内容来动态填充设置字段“ install_requires ”。如果您使用DirectRunner没问题,但是DataflowRunner对于本地文件的依赖关系过于敏感,因此放弃该技术并将依赖关系从requirements.txt硬编码为“ install_requires”解决了一个问题我。

如果您坚持这样做,请尝试调查依赖关系,并尽可能减少依赖关系。请参考Managing Python Pipeline Dependencies文档主题以获取帮助。避免在本地文件系统上使用复杂或嵌套的代码结构或依赖项。