使用tf.keras模型进行训练时GPU会随机冻结

时间:2019-12-01 15:25:57

标签: tensorflow keras nvidia freeze tensorflow2.0

正在使用的版本: tensorflow-gpu:2.0,CUDA v10,CuDNN v7.6.5,Python 3.7.4

系统规格: i9-7920X,4个RTX 2080Ti,128GB 2400MHz RAM,2TB SATA SSD

问题:

在使用tensorflow 2.0训练任何模型时,在某个时期内,GPU会冻结,GPU的功耗将降至70W左右,其中Core的使用率为0,内存使用率也固定为某个随机值。发生这种情况时,我也不会收到任何错误或异常。还原的唯一方法是重新启动jupyter内核并从头开始运行。 我首先以为我的代码可能有问题。因此,我想我将在使用Cifar100训练Densenet时尝试重现此问题,并且问题仍然存在。

如果我在多个GPU上进行训练,那么GPU也会冻结,但是这种情况很少发生。但是,使用单个GPU可以确保在某些时候卡住。

下面是用于训练Cifar100的代码

from densenet import DenseNet
from tensorflow.keras.datasets import cifar100
import tensorflow as tf
from tqdm import tqdm_notebook as tqdm

# the data, shuffled and split between train and test sets
(X_train, y_train), (X_test, y_test) = cifar100.load_data(label_mode='fine')
num_classes = 100
y_test_original = y_test

# Convert class vectors to binary class matrices. [one hot encoding]
y_train = tf.keras.utils.to_categorical(y_train, num_classes)
y_test = tf.keras.utils.to_categorical(y_test, num_classes)

X_train = X_train.astype('float32')
X_test = X_test.astype('float32')

for i in range(3):
    mean = np.mean(X_train[:,:,:,i])
    std = np.std(X_train[:,:,:,i])
    X_train[:,:,:,i] = (X_train[:,:,:,i] - mean)/std
    X_test[:,:,:,i] = (X_test[:,:,:,i] - mean)/std


with tf.device('/gpu:0'):  
    model = DenseNet(input_shape=(32,32,3), dense_blocks=3, dense_layers=-1, growth_rate=12, nb_classes=100, dropout_rate=0.2,
             bottleneck=True, compression=0.5, weight_decay=1e-4, depth=100)


optimizer = tf.keras.optimizers.SGD(learning_rate=0.01, 
                                    momentum=0.9, 
                                    nesterov=True,
                                    name='SGD')
model.compile(loss = 'categorical_crossentropy', optimizer = optimizer, metrics = ['accuracy'])

def scheduler(epoch):
    if epoch < 151:
        return 0.01
    elif epoch < 251:
        return 0.001
    elif epoch < 301:
        return 0.0001

callback = tf.keras.callbacks.LearningRateScheduler(scheduler)

model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=300, verbose = 2)

PS:我什至在我的笔记本电脑上尝试了该代码,该笔记本电脑配备了i7-8750h和带有32GB和970 EVO NVME的RTX 2060。不幸的是,我遇到了GPU冻结的同样问题。

有人知道这个问题是什么吗?

2 个答案:

答案 0 :(得分:0)

可能与软件包版本有关,请尝试降级为tensorflow 1.14。

也可能是您正在使用gpu重定位。尝试在CPU上使用donig,例如:

 with tf.device('/cpu:0'):
    model = DenseNet(....)

parallel_model = multi_gpu_model(model, gpus=4)

然后您可以使用parallel_model进行训练,等等。

答案 1 :(得分:0)

因此,我想对此进行更新。 GPU同步和GPU冻结问题终于消失了。以下是我所做的事情。我不知道是哪个人修复了这个问题,或者他们是否都为修复做出了贡献:

  1. DDU GPU驱动程序,然后重新安装库存的CUDA v10驱动程序。
  2. 更新主板BIOS
  3. 使用以下代码。
configproto = tf.compat.v1.ConfigProto() 
configproto.gpu_options.allow_growth = True
sess = tf.compat.v1.Session(config=configproto) 
tf.compat.v1.keras.backend.set_session(sess)