浏览了Google Cloud Dataflow文档,我的印象是工作虚拟机运行特定的预定义Python 2.7环境,没有任何选项可以更改它。是否可以为工作者提供自定义VM映像(使用库构建,特定应用程序需要的外部命令)。是否可以在Gcloud Dataflow上运行Python 3?
答案 0 :(得分:3)
是否可以为工作人员提供自定义VM映像(使用库构建,特定应用程序需要的外部命令)。是否可以在Gcloud Dataflow上运行Python 3?
不,两个问题都没有。您可以为Dataflow作业配置Compute Engine实例计算机类型和磁盘大小,但是您无法配置已安装的应用程序等内容。目前,Apache Beam不支持Python 3.x。
参考文献:
1. https://cloud.google.com/dataflow/pipelines/specifying-exec-params
2. https://issues.apache.org/jira/browse/BEAM-1251
3. https://beam.apache.org/get-started/quickstart-py/
答案 1 :(得分:2)
您无法为工作人员提供自定义VM映像,但您可以提供setup.py文件来运行自定义命令并安装库。
您可以在此处找到有关setup.py文件的更多信息: https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/
答案 2 :(得分:1)
Python 3对Apache Beam状态的支持: https://beam.apache.org/roadmap/python-sdk/#python-3-support
答案 3 :(得分:1)
Custom containers 现在支持 Dataflow。