在云中调度GPU以训练深度学习模型

时间:2020-02-25 08:51:47

标签: google-cloud-platform deep-learning cloud

有些人拥有自己的云VM实例来执行任务。目前,当我们想训练深度学习模型时,可以附加GPU。但是我一次只能使用1-2个GPU。因此,我想建立一种调度机制,一旦GPU释放,它将开始训练我的模型。我们该怎么做? 一种解决方案可能是制作一个带有GPU的VM实例,然后我们从其他实例向该实例发送请求以安排我的工作。可行吗,怎么做?

1 个答案:

答案 0 :(得分:0)

如果要基于特定区域中GPU资源的可用性创建GPU实例,则用户没有这种可见性来观察GCP资源是否可用或缺货。

您可以在模拟实例上计划cron作业,该模拟任务将通过模拟服务帐户here在具有GPU资源的实例上执行任务。例如,您可以通过模拟实例的服务帐户,运行以下提及的命令在“ GPU_INSTANCE_NAME”实例上创建新文件。此时,创建一个包含以下提到的命令的脚本,并使用cron job根据您的要求安排任务。

“ gcloud computing ssh GPU_INSTANCE_NAME --project = Project_Name --zone = VM_Zone --impersonate-service-account = Instance_Service_Account --command =“ touch newfile”