当前,我使用官方示例setup.py:https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/complete/juliaset/setup.py
构建Google Dataflow Python环境。这种方法的问题是:
我认为获得一个Docker镜像以镜像Dataflow环境将是解决这些问题并在该镜像上运行DirectRunner的好方法。
在我看来,模板https://cloud.google.com/dataflow/docs/guides/templates/overview可以帮助在不同的环境中执行,尽管我认为模板不能提供对构建过程的足够了解。
我不确定在哪里可以找到可用于此的Docker映像,或者不确定是否有更好的方法可重复地构建Dataflow Python环境?