在多通道图像数据集上训练卷积网

时间:2017-08-22 14:43:15

标签: machine-learning neural-network computer-vision conv-neural-network convolution

我正在尝试从头开始实现卷积神经网络,我无法弄清楚如何对多通道图像执行(矢量化)操作,例如rgb,它有3个维度。在关注this CS231n tutorial等文章和教程之后,为单个输入实现网络非常清楚,因为输入层将是一个3d矩阵,但数据集中总是有多个数据点。所以,我无法弄清楚如何在整个数据集上实现这些网络的矢量化操作。

我已经实现了一个以3d矩阵作为输入的网络,但现在我已经意识到它不会对整个数据集起作用,但我必须一次传播一个输入。我真的不知道转换网是否是是否在整个数据集上进行矢量化。但如果是,我如何为多通道图像矢量化我的卷积网络?

1 个答案:

答案 0 :(得分:1)

如果我的问题是正确的,那么你基本上就会问如何为小批量进行卷积层,这将是一个4-D张量。

简而言之,您希望独立地处理批处理中的每个输入并对每个输入应用卷积。使用循环进行无矢量化编码非常简单。

矢量化实现通常基于im2col technique,它基本上将4-D输入张量转换为巨矩阵并执行矩阵乘法。这是在python中使用00111000的正向传递的实现:

numpy.lib.stride_tricks

请注意,它使用线性代数库的一些非平凡功能,这些功能在import numpy as np def conv_forward(x, w, b, stride, pad): N, C, H, W = x.shape F, _, HH, WW = w.shape # Check dimensions assert (W + 2 * pad - WW) % stride == 0, 'width does not work' assert (H + 2 * pad - HH) % stride == 0, 'height does not work' # Pad the input p = pad x_padded = np.pad(x, ((0, 0), (0, 0), (p, p), (p, p)), mode='constant') # Figure out output dimensions H += 2 * pad W += 2 * pad out_h = (H - HH) / stride + 1 out_w = (W - WW) / stride + 1 # Perform an im2col operation by picking clever strides shape = (C, HH, WW, N, out_h, out_w) strides = (H * W, W, 1, C * H * W, stride * W, stride) strides = x.itemsize * np.array(strides) x_stride = np.lib.stride_tricks.as_strided(x_padded, shape=shape, strides=strides) x_cols = np.ascontiguousarray(x_stride) x_cols.shape = (C * HH * WW, N * out_h * out_w) # Now all our convolutions are a big matrix multiply res = w.reshape(F, -1).dot(x_cols) + b.reshape(-1, 1) # Reshape the output res.shape = (F, N, out_h, out_w) out = res.transpose(1, 0, 2, 3) out = np.ascontiguousarray(out) return out 中实现,但可能不在您的库中。

顺便说一下,您通常不希望将整个数据集作为一个批次推送 - 将其分成几个批次。