Question

我正在尝试使用多层神经网络来预测第n个方格。

我有以下包含前99个方块的训练数据

这是代码：

import numpy as np
import neurolab as nl

# Load input data
text = np.loadtxt('data_sq.txt')

# Separate it into datapoints and labels
data = text[:, :1]
labels = text[:, 1:]

# Define a multilayer neural network with 2 hidden layers;
# First hidden layer consists of 10 neurons
# Second hidden layer consists of 6 neurons
# Output layer consists of 1 neuron
nn = nl.net.newff([[0, 99]], [10, 6, 1]) 

# Train the neural network
error_progress = nn.train(data, labels, epochs=2000, show=10, goal=0.01) 

# Run the classifier on test datapoints
print('\nTest results:')
data_test = [[100], [101]]
for item in data_test:
    print(item, '-->', nn.sim([item])[0])

为第100和第101个方格打印1：

Test results:
[100] --> [ 1.]
[101] --> [ 1.]

这样做的正确方法是什么？

Answer 1

根据Filip Malczak和Seanny123的建议和评论，我在tensorflow中实现了一个神经网络来检查当我们试图教它预测（和插值）第2个方格时会发生什么。

连续间隔训练

我在间隔[-7,7]训练网络（在此间隔内取300点，使其连续），然后在间隔[-30,30]进行测试。激活功能是ReLu，网络有3个隐藏层，每个隐藏层大小为50. epochs = 500。结果如下图所示。

所以基本上，在内部（也接近）间隔[-7,7]，拟合非常完美，然后它或多或少线性延伸到外面。很高兴看到，至少在最初，网络输出的斜率试图匹配＆＃34; x^2的斜率。如果我们增加测试间隔，这两个图表会发生很大的差异，如下图所示：

对偶数进行培训

最后，如果我在区间[-100,100]中对所有偶数整数的集合训练网络，并将其应用于此区间中所有整数（偶数和奇数）的集合，我得到：{{3 }}

当训练网络产生上面的图像时，我将时期增加到2500以获得更好的准确性。其余参数保持不变。因此，似乎内插＆＃34;内部＆＃34;训练间隔效果很好（可能除了0左右的区域，其中拟合有点差）。

以下是我用于第一个数字的代码：

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
from tensorflow.python.framework.ops import reset_default_graph

#preparing training data
train_x=np.linspace(-7,7,300).reshape(-1,1)
train_y=train_x**2

#setting network features
dimensions=[50,50,50,1]
epochs=500
batch_size=5

reset_default_graph()
X=tf.placeholder(tf.float32, shape=[None,1])
Y=tf.placeholder(tf.float32, shape=[None,1])

weights=[]
biases=[]
n_inputs=1

#initializing variables
for i,n_outputs in enumerate(dimensions):
    with tf.variable_scope("layer_{}".format(i)):
        w=tf.get_variable(name="W",shape=[n_inputs,n_outputs],initializer=tf.random_normal_initializer(mean=0.0,stddev=0.02,seed=42))
        b=tf.get_variable(name="b",initializer=tf.zeros_initializer(shape=[n_outputs]))
        weights.append(w)
        biases.append(b)
        n_inputs=n_outputs

def forward_pass(X,weights,biases):
    h=X
    for i in range(len(weights)):
        h=tf.add(tf.matmul(h,weights[i]),biases[i])
        h=tf.nn.relu(h)
    return h

output_layer=forward_pass(X,weights,biases)
cost=tf.reduce_mean(tf.squared_difference(output_layer,Y),1)
cost=tf.reduce_sum(cost)
optimizer=tf.train.AdamOptimizer(learning_rate=0.01).minimize(cost)


with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    #train the network
    for i in range(epochs):
        idx=np.arange(len(train_x))
        np.random.shuffle(idx)
        for j in range(len(train_x)//batch_size):
            cur_idx=idx[batch_size*j:batch_size*(j+1)]
            sess.run(optimizer,feed_dict={X:train_x[cur_idx],Y:train_y[cur_idx]})
        #current_cost=sess.run(cost,feed_dict={X:train_x,Y:train_y})
        #print(current_cost)
    #apply the network on the test data
    test_x=np.linspace(-30,30,300)
    network_output=sess.run(output_layer,feed_dict={X:test_x.reshape(-1,1)})    



plt.plot(test_x,test_x**2,color='r',label='y=x^2')
plt.plot(test_x,network_output,color='b',label='network output')
plt.legend(loc='center')
plt.show()

Answer 2

检查神经网络的文档 - newff默认情况下在所有神经元中创建具有sigmoid传递函数的NN。 Sigmoid值始终在(-1; 1)范围内，因此您的输出将永远不会离开此范围。

第二个方格（4）已超出此范围，因此您的代码根本不符合您的问题。

尝试使用其他功能（我建议SoftPlus or ReLU）。它们与前馈网络一起工作得很好，允许反向传播训练（因为它们可以在整个域中导出）并且具有范围(0, ∞)中的值，就像您需要的那样。

另外：newff的第一个参数定义输入数据的范围 - 你使用[0,99]匹配所有训练数据，但是与你在测试时尝试过的值不匹配（因为100和101是大于99）。将此值更改为更大的值，因此您测试的值不是“特殊”（意思是“在范围的末尾”） - 我建议使用类似[-300, 300]的内容。

此外，正如Seanny123在评论中所述，我认为它根本不会起作用，但是根据目前的设置我可以肯定。祝好运。如果你成功了，请告诉我（例如在评论中）。

最后，但并非最不重要 - 您要做的是外推（根据该范围内的值计算某些范围内的值）。 NN更适合插值（根据该范围的样本计算范围内的值），因为它们应该概括训练中使用的数据。尝试教它方块，例如，每隔3个方格（如1,16,49，......），然后通过询问其余的方块进行测试（例如要求2或8的方格）。

神经网络预测第n个方格

2 个答案: