使用Apache mxnet(gluon)训练神经网络会导致程序崩溃

时间:2018-01-31 12:00:47

标签: python apache deep-learning mxnet

我正在尝试使用Gluon API在我想要分类的一组图像上使用mxnet训练卷积神经网络。但是,相同的网络和代码有时会为相同的数据输出截然不同的结果,有时只是因为某些原因而崩溃并拒绝运行。这是我的代码:

其他信息:

图像全部 131 x 131 px大小,每类176个图像(2个类),每个类40个测试。我很困惑为什么相同数据的相同程序有时应该输出但是否会崩溃。

进口

from __future__ import print_function
import mxnet as mx
import numpy as np
from mxnet import nd, autograd, gluon
import time
mx.random.seed(1)

设置上下文

ctx = mx.cpu()

定义回调转换函数

def transform(data, label):
    return nd.transpose(data.astype(np.float32), (2, 0, 1))/255, label

在o / p层中定义批量大小和节点数

batch_size = 5
num_outputs = 2

加载培训和测试数据

train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.ImageFolderDataset("/somepath/train", 0, transform), batch_size, shuffle=True)
test_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.ImageFolderDataset("/somepath/test", 0, transform), batch_size, shuffle=False)

使用gluon.nn定义CNN

neural_net = gluon.nn.Sequential()
num_fc = 512

with neural_net.name_scope():
    neural_net.add(gluon.nn.Conv2D(channels=20, kernel_size=5, activation='relu'))
    neural_net.add(gluon.nn.MaxPool2D(pool_size=2, strides=2))
    neural_net.add(gluon.nn.Conv2D(channels=50, kernel_size=5, activation='relu'))
    neural_net.add(gluon.nn.MaxPool2D(pool_size=2, strides=2))
    neural_net.add(gluon.nn.Flatten())
    neural_net.add(gluon.nn.Dense(num_fc, activation="relu"))
    neural_net.add(gluon.nn.Dense(num_outputs))

初始化参数,损失fn和训练对象

neural_net.collect_params().initialize(mx.init.Xavier(magnitude=2.24), ctx=ctx)
cross_entropy = gluon.loss.SoftmaxCrossEntropyLoss()
trainer = gluon.Trainer(neural_net.collect_params(), 'adadelta')

训练循环

total_time = 0
for e in range(2):
    tick = time.time()
    for idx, (dpoint, label) in enumerate(train_data):
        data = dpoint.as_in_context(ctx)
        label = label.as_in_context(ctx)

        with autograd.record():
            output = neural_net(data)
            loss2 = cross_entropy(output, label)

        loss2.backward()    
        trainer.step(data.shape[0])
    tock = time.time()
    print("Epoch %s. Took %s seconds to train" %(e, tock-tick))
    total_time += tock-tick
print("Total training time: %s" %(total_time))

测量精度

acc = mx.metric.Accuracy()
for idx, (data, label) in enumerate(test_data):
    something = data.as_in_context(ctx)
    something_label = label.as_in_context(ctx)

    output2 = neural_net(something)
    predictions = nd.argmax(output2, axis=1)

    acc.update(predictions, something_label)
print(acc.get()[-1])

2 个答案:

答案 0 :(得分:4)

您的网络可能需要很长时间来计算数据的前向和后向传递。我追踪了对acc.update电话的感知无响应(比neural_net(...)晚一点)。深入研究这个功能,我们正在等待nd.asnumpy解决。

混淆在于MXNet NDArray计算是异步的。所有训练前进/后退传递操作似乎立即解决,但实际上已添加到队列中进行处理。只有当数据被带回到python进程(通过nd.asnumpy)时,您才需要等待相关操作完成。这在acc.update中第一次发生。

对某些代码块的性能进行基准测试的另一种方法是使用mx.nd.waitall()来阻止代码,直到计算队列为空。将此添加到您的训练周期中,您可以看到它比最初出现的时间长得多。

使用GPU可能有助于明显的无反应。

答案 1 :(得分:3)

Thom的回答是正确的,你需要明确地等待工作完成,否则操作就会被排队。看看这个section of the documentation

这是文档中的相关代码段,显示了您放置mx.nd.waitall()的位置

for batch in train_data:
    train_batch(batch, dev_params, ctx, lr)
nd.waitall()  # wait all computations are finished to benchmark the time
print('Epoch %d, training time = %.1f sec'%(epoch, time()-start))

在你的例子中:

nd.waitall()
tock = time.time()
print("Epoch %s. Took %s seconds to train" %(e, tock-tick))