适用于Google Cloud Dataflow工作人员的自定义VM映像

时间:2018-02-14 13:37:24

标签: google-cloud-dataflow

浏览了Google Cloud Dataflow文档,我的印象是工作虚拟机运行特定的预定义Python 2.7环境,没有任何选项可以更改它。是否可以为工作者提供自定义VM映像(使用库构建,特定应用程序需要的外部命令)。是否可以在Gcloud Dataflow上运行Python 3?

4 个答案:

答案 0 :(得分:3)

  

是否可以为工作人员提供自定义VM映像(使用库构建,特定应用程序需要的外部命令)。是否可以在Gcloud Dataflow上运行Python 3?

不,两个问题都没有。您可以为Dataflow作业配置Compute Engine实例计算机类型和磁盘大小,但是您无法配置已安装的应用程序等内容。目前,Apache Beam不支持Python 3.x。

参考文献:
1. https://cloud.google.com/dataflow/pipelines/specifying-exec-params
2. https://issues.apache.org/jira/browse/BEAM-1251
3. https://beam.apache.org/get-started/quickstart-py/

答案 1 :(得分:2)

您无法为工作人员提供自定义VM映像,但您可以提供setup.py文件来运行自定义命令并安装库。

您可以在此处找到有关setup.py文件的更多信息: https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/

答案 2 :(得分:1)

Python 3对Apache Beam状态的支持: https://beam.apache.org/roadmap/python-sdk/#python-3-support

答案 3 :(得分:1)

Custom containers 现在支持 Dataflow。