注意:
我是MXNet的新手。
似乎Gluon
模块意味着将(?)Symbol
模块替换为高级神经网络(nn
)接口。所以这个问题具体使用Gluon
模块来寻求答案。
Residual neural networks(res-NNs)是相当流行的架构(该链接提供了对res-NN的评论)。简而言之,res-NNs是一种体系结构,其中输入经历(一系列)变换(例如通过标准nn层),并且最终在激活函数之前与其未掺杂的自身组合:
这里的主要问题是“如何使用自定义gluon.Block
实现res-NN结构?”以下是:
通常,子问题被视为并发的主要问题,导致帖子被标记为过于笼统。在这种情况下,它们是合法的子问题,因为我无法解决我的主要问题源于这些子问题和胶子模块的部分/初稿文档不足以回答它们。< / p>
“如何使用自定义gluon.Block
实现res-NN结构?”
首先让我们做一些导入:
import mxnet as mx
import numpy as np
import math
import random
gpu_device=mx.gpu()
ctx = gpu_device
在定义res-NN结构之前,首先我们定义一个通用的卷积NN(cnn)架构;即卷积→批量规范。 →坡道。
class CNN1D(mx.gluon.Block):
def __init__(self, channels, kernel, stride=1, padding=0, **kwargs):
super(CNN1D, self).__init__(**kwargs)
with self.name_scope():
self.conv = mx.gluon.nn.Conv1D(channels=channels, kernel_size=kernel, strides=1, padding=padding)
self.bn = mx.gluon.nn.BatchNorm()
self.ramp = mx.gluon.nn.Activation(activation='relu')
def forward(self, x):
x = self.conv(x)
x = self.bn(x)
x = self.ramp(x)
return x
子问题:mx.gluon.nn.Activation vs
NDArray
module's nd.relu?何时使用哪个和为什么。在我在其文档中看到的所有MXNet教程/演示中,自定义gluon.Block
在nd.relu(x)
函数中使用forward
。子问题:
self.ramp(self.conv(x))
vsmx.gluon.nn.Conv1D(activation='relu')(x)
?即将激活参数添加到图层的结果是什么?这是否意味着在调用该图层时,forward
函数会自动应用激活?
现在我们有一个可重复使用的cnn chuck,让我们定义一个res-NN,其中:
chain_length
个cnn chucks 所以这是我的尝试:
class RES_CNN1D(mx.gluon.Block):
def __init__(self, channels, kernel, initial_stride, chain_length=1, stride=1, padding=0, **kwargs):
super(RES_CNN1D, self).__init__(**kwargs)
with self.name_scope():
num_rest = chain_length - 1
self.ramp = mx.gluon.nn.Activation(activation='relu')
self.init_cnn = CNN1D(channels, kernel, initial_stride, padding)
# I am guessing this is how to correctly add an arbitrary number of chucks
self.rest_cnn = mx.gluon.nn.Sequential()
for i in range(num_rest):
self.rest_cnn.add(CNN1D(channels, kernel, stride, padding))
def forward(self, x):
# make a copy of untouched input to send through chuncks
y = x.copy()
y = self.init_cnn(y)
# I am guess that if I call a mx.gluon.nn.Sequential object that all nets inside are called / the input gets passed along all of them?
y = self.rest_cnn(y)
y += x
y = self.ramp(y)
return y
子请求:添加可变数量的图层,是否应该使用hacky
eval("self.layer" + str(i) + " = mx.gluon.nn.Conv1D()")
或者这是mx.gluon.nn.Sequential
的用途?子请求:在自定义
forward
中定义具有gluon.Block
实例的mx.gluon.nn.Sequential
函数时(让我们将其称为self.seq
} {,self.seq(x)
只是将参数x
传递给线路?例如如果这是self.seq
self.seq = mx.gluon.nn.Sequential()
self.conv1 = mx.gluon.nn.Conv1D()
self.conv2 = mx.gluon.nn.Conv1D()
self.seq.add(self.conv1)
self.seq.add(self.conv2)
self.seq(x)
相当于self.conv2(self.conv1(x))
?
这是对的吗?
的理想结果
RES_CNN1D(10, 3, 2, chain_length=3)
应该是这样的
Conv1D(10, 3, stride=2) -----
BatchNorm |
Ramp |
Conv1D(10, 3) |
BatchNorm |
Ramp |
Conv1D(10, 3) |
BatchNorm |
Ramp |
| |
(+)<-------------------------
v
Ramp
答案 0 :(得分:4)
self.ramp(self.conv(x))vs mx.gluon.nn.Conv1D(activation =&#39; relu&#39;)(x)是。后者将relu激活应用于Conv1D的输出。
mx.gluon.nn.Sequential用于将多个图层分组为一个块。通常,您不需要将每个图层明确定义为类属性。您可以创建一个列表来存储要分组的所有图层,并使用for循环将所有列表元素添加到mx.gluon.nn.Sequential对象中。
是。在mx.gluon.nn上调用前进。顺序等于在所有子块上调用前转,具有计算图的拓扑顺序。