使Stylegan在v100的gcp实例上运行

时间:2019-02-16 00:06:58

标签: google-cloud-platform google-colaboratory jupyter-lab google-dl-platform

我一直在尝试让stylegan在gcp上运行以连接到v100。我已经能够使用此实例设置进行一维训练

 export IMAGE_FAMILY="pytorch-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west2-b" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

对于一个大型数据集,然后我对另一个数据集运行相同的代码,似乎没有使用v100。我不得不两次都运行!pip install tensorflow-gpu

当我尝试使用

的代码时
export IMAGE_FAMILY="tf-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west1-a" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

在jupyter实验室环境中运行data_tool.py文件创建记录并由于某种原因而无法运行python3时出现错误。

所有代码也都在google colab上运行,这使我们想知道colab具有哪种类型的实例,以及是否可以找到使用v100设置相同实例的脚本?

1 个答案:

答案 0 :(得分:1)

您的第一个命令:

export IMAGE_FAMILY="pytorch-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west2-b" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

使用图像家族pytorch-latest-gpu,该图像未预装TensorFlow,因此不应与TensorFlow任务一起使用。

对于第二个命令,它使用的是正确的tf-latest-gpu系列。请允许我提供更多详细信息以帮助我们:

  • 您要运行的代码是什么?
  • 您可以在此处复制粘贴错误吗?
  • 如果它在Colab上运行,也许您有指向公共Colab笔记本的链接?

顺便说一句,Colab正在使用1个K80 GPU。