使用Python SDK,如果我使用extra_package选项使用自定义ParDo,作业似乎永远挂起(我必须在某些时候手动终止)。
这是一个职位ID,例如:2016-12-22_09_26_08-4077318648651073003
不会抛出明确的日志或错误......
我注意到它似乎与extra_package选项有关,因为如果我使用此选项而不实际触发ParDo(代码注释),它也不起作用。 具有简单输出模式且没有转换步骤的初始Bq查询有效。
是否发生在某人身上?
P.S:我正在使用DataFlow 0.4.3版本。我在一个venv中进行了测试,它似乎与DirectPipelineRunner一起使用
答案 0 :(得分:0)
由thylong和jkff确定:
extra_package与Dataflow的包是二进制不兼容的。根目录中的requirements.txt和extra_package中的requirements.txt是不同的,导致DataFlow容器中的exec.go一次又一次失败。为了解决这个问题,我们使用相同的冻结依赖关系重新创建了venv。