Question

我一直在尝试让stylegan在gcp上运行以连接到v100。我已经能够使用此实例设置进行一维训练

 export IMAGE_FAMILY="pytorch-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west2-b" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

对于一个大型数据集，然后我对另一个数据集运行相同的代码，似乎没有使用v100。我不得不两次都运行！pip install tensorflow-gpu

当我尝试使用

的代码时

export IMAGE_FAMILY="tf-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west1-a" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

在jupyter实验室环境中运行data_tool.py文件创建记录并由于某种原因而无法运行python3时出现错误。

所有代码也都在google colab上运行，这使我们想知道colab具有哪种类型的实例，以及是否可以找到使用v100设置相同实例的脚本？

Answer 1

您的第一个命令：

export IMAGE_FAMILY="pytorch-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west2-b" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

使用图像家族pytorch-latest-gpu，该图像未预装TensorFlow，因此不应与TensorFlow任务一起使用。

对于第二个命令，它使用的是正确的tf-latest-gpu系列。请允许我提供更多详细信息以帮助我们：

您要运行的代码是什么？
您可以在此处复制粘贴错误吗？
如果它在Colab上运行，也许您有指向公共Colab笔记本的链接？

顺便说一句，Colab正在使用1个K80 GPU。

使Stylegan在v100的gcp实例上运行

1 个答案: