MXNet(python3)将残差卷积结构定义为Gluon模块的块

时间:2017-09-19 17:44:38

标签: python-3.x mxnet

注意:

我是MXNet的新手。

似乎Gluon模块意味着将(?)Symbol模块替换为高级神经网络(nn)接口。所以这个问题具体使用Gluon模块来寻求答案。

上下文

Residual neural networks(res-NNs)是相当流行的架构(该链接提供了对res-NN的评论)。简而言之,res-NNs是一种体系结构,其中输入经历(一系列)变换(例如通过标准nn层),并且最终在激活函数之前与其未掺杂的自身组合:

res-NN

这里的主要问题是“如何使用自定义gluon.Block实现res-NN结构?”以下是:

  1. 我尝试这样做(这是不完整的,可能有错误)
  2. 作为块问题突出显示的子问题。
  3. 通常,子问题被视为并发的主要问题,导致帖子被标记为过于笼统。在这种情况下,它们是合法的子问题,因为我无法解决我的主要问题源于这些子问题胶子模块的部分/初稿文档不足以回答它们。< / p>

    主要问题

    “如何使用自定义gluon.Block实现res-NN结构?”

    首先让我们做一些导入:

    import mxnet as mx
    import numpy as np
    import math
    import random
    gpu_device=mx.gpu()
    ctx = gpu_device
    

    在定义res-NN结构之前,首先我们定义一个通用的卷积NN(cnn)架构;即卷积→批量规范。 →坡道。

    class CNN1D(mx.gluon.Block):
        def __init__(self, channels, kernel, stride=1, padding=0, **kwargs):
            super(CNN1D, self).__init__(**kwargs) 
            with self.name_scope():
                self.conv = mx.gluon.nn.Conv1D(channels=channels, kernel_size=kernel, strides=1, padding=padding)      
                self.bn = mx.gluon.nn.BatchNorm()
                self.ramp = mx.gluon.nn.Activation(activation='relu')
    
        def forward(self, x):
            x = self.conv(x)
            x = self.bn(x)
            x = self.ramp(x)
            return x
    
      

    子问题mx.gluon.nn.Activation vs NDArray module's nd.relu?何时使用哪个和为什么。在我在其文档中看到的所有MXNet教程/演示中,自定义gluon.Blocknd.relu(x)函数中使用forward

         

    子问题self.ramp(self.conv(x)) vs mx.gluon.nn.Conv1D(activation='relu')(x)?即将激活参数添加到图层的结果是什么?这是否意味着在调用该图层时,forward函数会自动应用激活?

    现在我们有一个可重复使用的cnn chuck,让我们定义一个res-NN,其中:

    1. chain_length个cnn chucks
    2. 第一个cnn chuck使用与后续
    3. 不同的步幅

      所以这是我的尝试:

      class RES_CNN1D(mx.gluon.Block):
          def __init__(self, channels, kernel, initial_stride, chain_length=1, stride=1, padding=0, **kwargs):
              super(RES_CNN1D, self).__init__(**kwargs)
              with self.name_scope():
                  num_rest = chain_length - 1
                  self.ramp = mx.gluon.nn.Activation(activation='relu')
                  self.init_cnn = CNN1D(channels, kernel, initial_stride, padding)
                  # I am guessing this is how to correctly add an arbitrary number of chucks
                  self.rest_cnn = mx.gluon.nn.Sequential()
                  for i in range(num_rest):
                      self.rest_cnn.add(CNN1D(channels, kernel, stride, padding))
      
      
          def forward(self, x):
              # make a copy of untouched input to send through chuncks
              y = x.copy()
              y = self.init_cnn(y)
              # I am guess that if I call a mx.gluon.nn.Sequential object that all nets inside are called / the input gets passed along all of them?
              y = self.rest_cnn(y)
              y += x
              y = self.ramp(y)
              return y
      
        

      子请求:添加可变数量的图层,是否应该使用hacky eval("self.layer" + str(i) + " = mx.gluon.nn.Conv1D()")或者这是mx.gluon.nn.Sequential的用途?

           

      子请求:在自定义forward中定义具有gluon.Block实例的mx.gluon.nn.Sequential函数时(让我们将其称为self.seq } {,self.seq(x)只是将参数x传递给线路?例如如果这是self.seq

           

      self.seq = mx.gluon.nn.Sequential()

           

      self.conv1 = mx.gluon.nn.Conv1D()

           

      self.conv2 = mx.gluon.nn.Conv1D()

           

      self.seq.add(self.conv1)

           

      self.seq.add(self.conv2)

           

      self.seq(x)相当于self.conv2(self.conv1(x))

      这是对的吗?

      的理想结果
      RES_CNN1D(10, 3, 2, chain_length=3)
      

      应该是这样的

      Conv1D(10, 3, stride=2)  -----
      BatchNorm                    |
      Ramp                         |
      Conv1D(10, 3)                |
      BatchNorm                    |
      Ramp                         |
      Conv1D(10, 3)                |
      BatchNorm                    |
      Ramp                         |
        |                          |
       (+)<-------------------------
        v
      Ramp
      

1 个答案:

答案 0 :(得分:4)

  1. self.ramp(self.conv(x))vs mx.gluon.nn.Conv1D(activation =&#39; relu&#39;)(x)是。后者将relu激活应用于Conv1D的输出。

  2. mx.gluon.nn.Sequential用于将多个图层分组为一个块。通常,您不需要将每个图层明确定义为类属性。您可以创建一个列表来存储要分组的所有图层,并使用for循环将所有列表元素添加到mx.gluon.nn.Sequential对象中。

  3. 是。在mx.gluon.nn上调用前进。顺序等于在所有子块上调用前转,具有计算图的拓扑顺序。