使用torch7模型测试单个图像

时间:2016-03-30 17:34:46

标签: lua machine-learning torch

我根据链接here训练了我的模型。当我训练它时,它几乎达到90%准确度。我正在使用您在链接中找到的vgg_bn_drop.lua模型。但问题是,我不知道如何测试单个图像。

我知道如何测试模型。通过向前传递图像通过网络。

因此,测试模型需要modelname:forward(image)。其中modelname是我训练的模型的名称,forward用于转发模型,'image'是我想要转发的图像位置。现在,我无法确定单个图像的尺寸将来自该网络。

所以, 我想做的是拍一张照片。假设图像有尺寸[3x32x32]。将其传递通过网络并获得结果。这个网络有可能吗?

没有文档说明如何测试单个图像。

到目前为止我尝试的是,

1) 声明一个大小的张量(3x32x32)。让我们称它为图像。 `image = torch.Tensor(3x32x32)。 向前通过这个。

model:forward(image)

它产生错误...h/install/share/lua/5.1/nn/SpatialBatchNormalization.lua:68: only mini-batch supported (4D tensor), got 3D tensor instead

2)我将图像重新塑造为(1,3,32,32)

image = image:reshape(1,3,32,32) 向前传递

model:forward(image)

它产生错误 ...ch/torch/install/share/lua/5.1/nn/BatchNormalization.lua:67: only mini-batch supported (2D tensor), got 1D tensor instead

所以我尝试了方法。但无法弄清楚如何将单个图像传递到该网络。你能救我一下吗?

模型定义是

require 'nn'

local vgg = nn.Sequential()
-- building block
local function ConvBNReLU(nInputPlane, nOutputPlane)
  vgg:add(nn.SpatialConvolution(nInputPlane, nOutputPlane, 3,3, 1,1, 1,1))
  vgg:add(nn.SpatialBatchNormalization(nOutputPlane,1e-3))
  vgg:add(nn.ReLU(true))
  return vgg
end
-- Will use "ceil" MaxPooling because we want to save as much feature space as we can
local MaxPooling = nn.SpatialMaxPooling

ConvBNReLU(3,64):add(nn.Dropout(0.3))
ConvBNReLU(64,64)
vgg:add(MaxPooling(2,2,2,2):ceil())
ConvBNReLU(64,128):add(nn.Dropout(0.4))
ConvBNReLU(128,128)
vgg:add(MaxPooling(2,2,2,2):ceil())
ConvBNReLU(128,256):add(nn.Dropout(0.4))
ConvBNReLU(256,256):add(nn.Dropout(0.4))
ConvBNReLU(256,256)
vgg:add(MaxPooling(2,2,2,2):ceil())
ConvBNReLU(256,512):add(nn.Dropout(0.4))
ConvBNReLU(512,512):add(nn.Dropout(0.4))
ConvBNReLU(512,512)
vgg:add(MaxPooling(2,2,2,2):ceil())
ConvBNReLU(512,512):add(nn.Dropout(0.4))
ConvBNReLU(512,512):add(nn.Dropout(0.4))
ConvBNReLU(512,512)
vgg:add(MaxPooling(2,2,2,2):ceil())
vgg:add(nn.View(512))
vgg:add(nn.Dropout(0.5))
vgg:add(nn.Linear(512,512))
vgg:add(nn.BatchNormalization(512))
vgg:add(nn.ReLU(true))
vgg:add(nn.Dropout(0.5))
vgg:add(nn.Linear(512,10))

-- initialization from MSR
local function MSRinit(net)
  local function init(name)
    for k,v in pairs(net:findModules(name)) do
      local n = v.kW*v.kH*v.nOutputPlane
      v.weight:normal(0,math.sqrt(2/n))
      v.bias:zero()
    end
  end
  init'nn.SpatialConvolution'
end

MSRinit(vgg)
return vgg

1 个答案:

答案 0 :(得分:4)

嗯,错误很明显:nn.BatchNormalization期望2D张量作为输入(批量),但是会收到1D张量。您已将批量维度添加到输入(image:reshape(1,3,32,32)),但是通过您的网络,维度已丢失。 nn.View模块犯了这个罪。

假设使用以下参数实例化模块:

output_size = channels*height*width    -- (512 in your case)
view = nn.View(output_size)

并给出形状batch_size x channels x height x width(1x512x1x1)的输入张量。 现在,模块必须决定是否要返回批处理或单个非批处理输出。

  1. 如果batch_size> 1,答案显而易见:batch_size*channels*height*widthoutput_size =>的倍数输入是批处理=>输出必须是批处理。
  2. 如果batch_size == 1,那么呢? 1*channels*height*width == output_size,是否是批量输入? nn.View假定它不是并且产生单个输出(没有批量维度)。
  3. 要解决误解,可以指定非批量维度的数量NB(如果输入具有NB + 1维度,则为批次):

    view:setNumInputDims(NB)
    

    鉴于上述情况,这将解决您的问题:

    VGG:添加(nn.View(512):的 setNumInputDims(3)