编辑02/2018 在使用本地存储的数据编写自己的代码并且不那么笨重的精度度量计算后,我看到了显着的加速。 GPU也在我试过用mxnet构建的任何CNN中冲洗CPU;甚至只是使用MNIST。我相信我的问题与教程代码有关,不再认为这是一个真正的问题。
我正在http://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-gluon.html
运行'胶合中的多层感知器'MNIST教程(除了将上下文设置为gpu(0),使用顺序模型之外的相同代码)
我在Windows 10.使用python 3(anaconda),安装了CUDA 9.0和cuDNN v7.0.5 for 9.0,然后从pip安装了mxnet_cu90。
我将数据和模型上下文设置为gpu(0),但是我的gtx 1080徘徊在1-4%左右的使用率(无论脚本是否正在运行),而我的8 Xeon内核增加到大约50-60%通过时代。无论背景如何,训练时间都没有差异。当我在训练后打印params它说它们是NDArray size gpu(0),所以它肯定认为它正在使用gpu。
编辑:在家里的笔记本电脑上复制(gpu:GTX980m,cpu:I7 4710HQ)。在这种情况下,使用了gpu:980m从0%到12%使用每个时期。但是,cpu也使用了> 40%的负载,并且,gpu上下文训练实际上比在cpu上慢。
我开始认为因为这是MNIST / ANN的一个简单问题,所以gpu不会受到挑战。也许在训练CNN时我会看到更多的gpu使用影响。
我仍然有点困惑,因为当我使用TensorFlow时我从未遇到过这些问题;使用gpu通常总是胜过我的cpu。
任何帮助表示赞赏, 谢谢, 吨。
编辑:要求的代码:
#MULTILAYER PERCEPTRONS IN GLUON (MNIST)
#MODIFIED FROM: http://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-gluon.html
#IMPORT REQUIRED PACKAGES
import numpy as np
import mxnet as mx
from mxnet import nd, autograd, gluon
import datetime #for comparing training times
#SET THE CONTEXTS (GPU/CPU)
ctx = mx.gpu(0) #note: original tutorial sets separate context variable for data/model. The data_ctx was never used so i submitted an issue on github and use a single ctx here
#ctx = mx.cpu()
#PREDEFINE SOME USEFUL NUMBERS
batch_size = 64
num_inputs = 784
num_outputs = 10 #ten hand written digits [0-9]
num_examples = 60000
#LOAD IN THE MNIST DATASET
def transform(data, label):
return data.astype(np.float32)/255, label.astype(np.float32)
train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train = True, transform = transform), batch_size, shuffle = True)
test_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train = False, transform = transform), batch_size, shuffle = False)
#MAKE SEQUENTIAL MODEL
num_hidden = 64
net = gluon.nn.Sequential()
with net.name_scope():
net.add(gluon.nn.Dense(num_hidden, activation = "relu"))
net.add(gluon.nn.Dense(num_hidden, activation = "relu"))
net.add(gluon.nn.Dense(num_outputs))
net.collect_params().initialize(mx.init.Normal(sigma = 0.01), ctx = ctx)
#SETUP THE FUNCTIONS FOR TRAINING
softmax_cross_entropy = gluon.loss.SoftmaxCrossEntropyLoss() #LOSS
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.01}) #OPTIMIZER
#DEFINE A LOOP TO TEST THE ACCURACY OF THE MODEL ON A TEST SET
def evaluate_accuracy(data_iterator, net):
acc = mx.metric.Accuracy()
for i, (data, label) in enumerate(data_iterator):
data = data.as_in_context(ctx).reshape((-1,784))
label = label.as_in_context(ctx)
output = net(data)
predictions = nd.argmax(output, axis = 1)
acc.update(preds = predictions, labels = label)
return acc.get()[1] #get the accuracy value from the mxnet accuracy metric
#TRAINING LOOP
epochs = 10
smoothing_constant = 0.01
start_time = datetime.datetime.now()
for e in range(epochs):
cumulative_loss = 0
for i, (data, label) in enumerate(train_data):
data = data.as_in_context(ctx).reshape((-1, 784))
label = label.as_in_context(ctx)
with autograd.record():
output = net(data)
loss = softmax_cross_entropy(output, label)
loss.backward()
trainer.step(data.shape[0])
cumulative_loss += nd.sum(loss).asscalar()
test_accuracy = evaluate_accuracy(test_data, net)
train_accuracy = evaluate_accuracy(train_data, net)
print("Epoch %s. Loss: %s, Train_acc %s, Test_acc %s" % (e, cumulative_loss/num_examples, train_accuracy, test_accuracy))
#I ADDED THIS TO GET THE FINAL PARAMETERS / NDARRAY CONTEXTS
params = net.collect_params()
for param in params.values():
print(param.name,param.data())
#I ADDED THIS TO COMPARE THE TIMING I GET WHEN SETTING THE CTX AS GPU/CPU
end_time = datetime.datetime.now()
training_time = end_time - start_time
print("In h/m/s, total training time was: %s" % training_time)
CPU上下文的结果: cmd output for params and total training time (cpu)
GPU上下文的结果(实际需要更长时间): cmd output for params and total training time (gpu)
答案 0 :(得分:1)
有一些因素会影响您的表现。
您的培训受到DataLoader的限制。使用num_workers增加获取和预处理数据到NDArrays的进程数,以确保您的GPU不会饿死。例如train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train=True, transform=transform), batch_size, shuffle=True, num_workers=4)
MXNet中的内置指标目前效率低下,特别是当批量大小非常小时。在您描述训练循环(使用简单时间())时,您会注意到大部分时间花在精确度计算而不是训练上。但是,这通常不是真正的DL培训会话中的问题,因为通常训练数据大小远大于验证数据大小,并且您通常不会以教程中显示的方式计算训练和验证准确性。
总的来说,由于教程网络和数据集非常简单,因此您不会对GPU利用率产生巨大影响。
答案 1 :(得分:0)
尽管要求使用Windows机器,但在Colab上(使用GluonTS时)是否有这样的问题,
pip install mxnet-cu101
将解决。