Question

根据this问题的建议，我一直在运行一个Python应用程序，该应用程序使用Tensorflow来运行模拟，并使用AI平台将结果输出到csv文件中。我一直在按照this使用Jupyter。

效果很好，并且我增加了VM的大小以使其运行更快。

现在我如何添加计算机以使其运行得更快，也许使用Spark和/或Dataproc，或者理想情况下使用更简单的方法？

Answer 1

AI Platform笔记本基于一台计算机。要使用计算机集群来处理数据，可以在Dataproc上使用Jupyter笔记本。要对此进行自动配置，请使用类似于以下内容的群集：

REGION=<gce_region>
gcloud beta dataproc clusters create ${CLUSTER_NAME} \ 
  --region ${REGION} \
  --optional-components ANACONDA,JUPYTER \
  --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/tony/tony.sh \
  --enable-component-gateway

这将提供一个Spark集群，该集群配置了Jupyter笔记本和一个用于在集群（Tony）上运行Tensorflow的框架。

有关Dataproc笔记本的更多信息，请查看： https://medium.com/google-cloud/apache-spark-and-jupyter-notebooks-made-easy-with-dataproc-component-gateway-fa91d48d6a5a

有关Tony的更多信息，请查看this post。

如果您想要更多的无服务器方法，则还可以查看AI平台分布式培训：

如何将计算机添加到GCP AI平台？

1 个答案: