最近,当我运行以Python编写的数据流作业时,一直出现此错误。问题是它曾经可以正常工作,并且代码没有更改,所以我认为它与环境有关。
同步Pod d557f64660a131e09d2acb9478fad42f(“”)时出错,跳过: 使用CrashLoopBackOff无法为“ python”的“ StartContainer”: “后退20秒钟,重新启动失败的container = python pod = dataflow-)
有人可以帮我吗?
答案 0 :(得分:1)
Neri,感谢您对SDK的指导。我注意到我的需求文件使用的是旧版本的SDK 2.4.0。我现在将所有内容更改为2.6.0,并且不再卡住。
答案 1 :(得分:1)
就我而言,我在使用Apache Beam SDK 2.9.0版时遇到了同样的问题。
我使用了setup.py
,并且通过加载requirements.txt
文件的内容来动态填充设置字段“ install_requires ”。如果您使用DirectRunner
没问题,但是DataflowRunner
对于本地文件的依赖关系过于敏感,因此放弃该技术并将依赖关系从requirements.txt
硬编码为“ install_requires”解决了一个问题我。
如果您坚持这样做,请尝试调查依赖关系,并尽可能减少依赖关系。请参考Managing Python Pipeline Dependencies文档主题以获取帮助。避免在本地文件系统上使用复杂或嵌套的代码结构或依赖项。