如何获得可复制的Python Apache Beam Dataflow环境构建?

时间:2019-03-21 14:43:07

标签: python docker google-cloud-dataflow apache-beam

当前,我使用官方示例setup.py:https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/complete/juliaset/setup.py

构建Google Dataflow Python环境。

这种方法的问题是:

  1. 操作系统兼容性问题,我正在Mac上开发,Dataflow实例基于Ubuntu。在这里使用setup.py非常痛苦,因为它似乎不是扎营的正确工具。
  2. DataflowRunner大约需要20-25分钟来识别

我认为获得一个Docker镜像以镜像Dataflow环境将是解决这些问题并在该镜像上运行DirectRunner的好方法。

在我看来,模板https://cloud.google.com/dataflow/docs/guides/templates/overview可以帮助在不同的环境中执行,尽管我认为模板不能提供对构建过程的足够了解。

我不确定在哪里可以找到可用于此的Docker映像,或者不确定是否有更好的方法可重复地构建Dataflow Python环境?

0 个答案:

没有答案