在Kubernetes上的cifar10上训练nasnet_large时出现ResourceExhausted错误

时间:2019-08-07 17:02:50

标签: tensorflow kubernetes

我正在尝试在Kubernetes的cifar10上训练nasnet。我收到此错误:

  

资源用尽。   “ tensorflow.python.framework.errors_impl.ResourceExhaustedError:分配带有形状的张量时出现OOM [32,1008,42,42]   [[节点:cell_6 / strided_slice = StridedSlice [Index = DT_INT32,T = DT_FLOAT,begin_mask = 3,省略号_maseplica:0 / task:0 / device:GPU:0“](cell_6 / Pad,渐变/ cell_stem_1 / strided_slice_grad / StridedSliceGrad- 1-Layoptimizer,渐变/ cell_stem_1 / strided_slice_grad / StridedSliceGrad-3-LayoutOptimizer)]]“

仓库here

我以前训练的命令:python train_image_classifier.py --train_dir=/tmp/train_logs --dataset_name=cifar10 --dataset_split_name=train --dataset_dir=tmp//data//cifar10 --model_name=nasnet_large

CUDA版本9.0.176
GPU(TensorFlow)1.9.0
Ubuntu 16.04

Pod资源:
CPU:28
内存:64Gi
GPU(NVIDIA):2

问题1:如何解决此错误?
问题2:或者,如果需要的话,如何仅在单个GPU上进行训练?

0 个答案:

没有答案