TensorFlow简单XOR示例未收敛

时间:2017-08-07 19:44:00

标签: python tensorflow

我有以下代码来学习简单的XOR网络:

import tensorflow as tf
import numpy as np

def generate_xor(length=1000):
    x = np.random.randint(0,2, size=(length,2))
    y = []
    for pair in x:
        y.append(int(np.logical_xor(pair[0],pair[1])))
    return x, np.array(y)

n_inputs = 2
n_hidden = n_inputs*4
n_outputs = 1


x = tf.placeholder(tf.float32, shape=[1,n_inputs])
y = tf.placeholder(tf.float32, [1, n_outputs])

W = tf.Variable(tf.random_uniform([n_inputs, n_hidden],-1,1))
b = tf.Variable(tf.zeros([n_hidden]))

W2 = tf.Variable(tf.random_uniform([n_hidden,n_outputs],-1,1))
b2 = tf.Variable(tf.zeros([n_outputs]))

def xor_model(data):
    x = data
    hidden_layer = tf.nn.relu(tf.matmul(x,W)+b)
    output = tf.nn.relu(tf.matmul(hidden_layer, W2)+b2)
    return output

xor_nn = xor_model(x)
cost = tf.reduce_mean(tf.abs(xor_nn - y))
train_step = tf.train.AdagradOptimizer(0.05).minimize(cost)

init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)

x_data,y_data = generate_xor(length=100000)
errors = []
count = 0
out_freq = 1000
for xor_in, xor_out in zip(x_data,y_data):
    _, err = sess.run([train_step, cost], feed_dict={x:xor_in.reshape(1,2), y:xor_out.reshape(1,n_outputs)})
    errors.append(err)
    count += 1

    if count == out_freq:
        tol = np.mean(errors[-out_freq:])
        print tol
        count = 0
        if tol < 0.005:
            break


n_tests = 100
correct = 0
count = 0
x_test, y_test = generate_xor(length=n_tests)
for xor_in, xor_out in zip(x_test, y_test):
    output = sess.run([xor_nn], feed_dict={x:xor_in.reshape(1,2)})[0]
    guess = int(output[0][0])
    truth = int(xor_out)
    if guess == truth:
        correct += 1
    count += 1
    print "Model %d : Truth %d - Pass Rate %.2f" % (int(guess), int(xor_out), float(correct*100.0)/float(count))

然而,我无法让代码可靠地收敛。我尝试使用不同的优化器/步长以及权重和偏差的不同初始化来改变隐藏层的大小。

我显然犯了一个基本错误。如果有人能提供帮助,我将不胜感激。

编辑:

感谢Prem和Alexander Svetkin,我设法发现了我的错误。首先,当我把它们投入到一个小学生的错误时,我并没有将输出四舍五入。其次,我有一个不需要的输出层 - 复制和粘贴错误。第三,对于这个任务,relu确实是激活函数的错误选择,使用sigmoid函数效果更好。

所以这个:

hidden_layer = tf.nn.relu(tf.matmul(x,W)+b)
output = tf.nn.relu(tf.matmul(hidden_layer, W2)+b2)

成为这个:

hidden_layer = tf.nn.sigmoid(tf.matmul(x,W)+b)
output = tf.matmul(hidden_layer, W2)+b2 

和此:

guess = int(output[0][0])

成为这个:

guess = int(output[0][0]+0.5)

2 个答案:

答案 0 :(得分:1)

你不应该只返回输出层的激活功能而不是relu吗?

output = tf.matmul(hidden_layer, W2) + b2

答案 1 :(得分:1)

  1. ReLU对于二进制分类任务不是正确的激活函数,使用不同的东西,比如sigmoid函数。
  2. 注意浮动输出值。 0.99应该是1还是0?使用四舍五入。