计算序列和 - 循环网络

时间:2017-03-23 11:29:24

标签: tensorflow neural-network recurrent-neural-network tflearn

我一直在尝试实现一个循环网络来计算一系列数字的总和。我打算尝试让它接受可变长度序列但是开始输入长度固定为5。

示例:

[1,2,3,4,5] = 15

我遇到的问题是,一旦它收敛,或者至少损失稳定,对于我给它的任何输入它会给出相同的输出。

实施例

[3,4,5,1,1] = 134.59681
[400,1,1,1,1] = 134.59681
[32,42,55,1,1] = 134.59681
[100,1,2,1,1] = 134.59681

到目前为止,我尝试了不同的图层大小,不同的激活函数和学习率。但它们都会导致类似的行为。即使它们作为输出给出的值发生变化(因此不是134.它可能是-12或其他),对于任何输入都是相同的。

我认为使用线性激活可以通过递归神经网络解决这个问题。

为什么网络会收敛到“固定”值?

sample_size = 512
X = np.random.randint(1, 50, size=(sample_size, 5))
Y = [[np.sum(x)] for x in X]
X = np.reshape(X, (-1, 5, 1))

net = tflearn.input_data(shape=[None, 5, 1])
net = tflearn.lstm(net, 32, dropout=0.9)
net = tflearn.fully_connected(net, 1, activation='linear')

regression = tflearn.regression(net, optimizer='adam', loss='mean_square', learning_rate=1.)

m = tflearn.DNN(regression, tensorboard_dir='tnsbrd-logs/')
m.fit(X, Y, n_epoch=2000, show_metric=True, snapshot_epoch=False)

1 个答案:

答案 0 :(得分:1)

使用simple_rnn而不是lstm层解决了这个问题。 此外,我最终只在循环图层中使用了一个节点。由于有一个输入和一个输出,这是有道理的。

代码现在看起来像这样:

sample_size = 64
max_len = 5

X = np.random.randint(1, 50, size=(sample_size, max_len)) + 0.0
Y = [[np.sum(x)] for x in X]
X = np.reshape(X, (-1, max_len, 1))


net = tflearn.input_data(shape=[None, max_len, 1])
net = tflearn.simple_rnn(net, 1, activation='linear', weights_init='normal')

regression = tflearn.regression(net, optimizer='adagrad', loss='mean_square', learning_rate=.06, metric='R2',)

m = tflearn.DNN(regression, tensorboard_dir='tnsbrd-logs/')
m.fit(X, Y, n_epoch=10000, show_metric=True, snapshot_epoch=False)