作业永远挂起,没有日志

时间:2016-12-22 17:45:58

标签: python google-cloud-dataflow

使用Python SDK,如果我使用extra_package选项使用自定义ParDo,作业似乎永远挂起(我必须在某些时候手动终止)。

这是一个职位ID,例如:2016-12-22_09_26_08-4077318648651073003

不会抛出明确的日志或错误......

我注意到它似乎与extra_package选项有关,因为如果我使用此选项而不实际触发ParDo(代码注释),它也不起作用。 具有简单输出模式且没有转换步骤的初始Bq查询有效。

是否发生在某人身上?

P.S:我正在使用DataFlow 0.4.3版本。我在一个venv中进行了测试,它似乎与DirectPipelineRunner一起使用

1 个答案:

答案 0 :(得分:0)

由thylong和jkff确定:

extra_package与Dataflow的包是二进制不兼容的。根目录中的requirements.txt和extra_package中的requirements.txt是不同的,导致DataFlow容器中的exec.go一次又一次失败。为了解决这个问题,我们使用相同的冻结依赖关系重新创建了venv。