根据this问题的建议,我一直在运行一个Python应用程序,该应用程序使用Tensorflow来运行模拟,并使用AI平台将结果输出到csv文件中。我一直在按照this使用Jupyter。
效果很好,并且我增加了VM的大小以使其运行更快。
现在我如何添加计算机以使其运行得更快,也许使用Spark和/或Dataproc,或者理想情况下使用更简单的方法?
答案 0 :(得分:4)
AI Platform笔记本基于一台计算机。要使用计算机集群来处理数据,可以在Dataproc上使用Jupyter笔记本。要对此进行自动配置,请使用类似于以下内容的群集:
REGION=<gce_region>
gcloud beta dataproc clusters create ${CLUSTER_NAME} \
--region ${REGION} \
--optional-components ANACONDA,JUPYTER \
--initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/tony/tony.sh \
--enable-component-gateway
这将提供一个Spark集群,该集群配置了Jupyter笔记本和一个用于在集群(Tony)上运行Tensorflow的框架。
有关Dataproc笔记本的更多信息,请查看: https://medium.com/google-cloud/apache-spark-and-jupyter-notebooks-made-easy-with-dataproc-component-gateway-fa91d48d6a5a
有关Tony的更多信息,请查看this post。
如果您想要更多的无服务器方法,则还可以查看AI平台分布式培训: