大家好,
我一直在努力建立一个神经网络,根据某些特征对工资进行分类。然而,当我运行这个神经网络的张量流代码时,无论我输入什么功能,它都会预测同样的事情。我已经读过神经网络概念之类的东西,我的代码用我的概念知识检查,所以我是困惑于我做错了什么。请你彻底解释一下你所发现的东西,因为我在这方面仍然很无知。
这是我的代码:
import tensorflow as tf
import numpy as np
n_inputs = 4
n_hidden1 = 2
n_hidden2 = 2
n_outputs = 1000000
X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")
y = tf.placeholder(tf.int64, shape=(None), name="y")
with tf.name_scope("dnn"):
hidden1 = tf.layers.dense(X, n_hidden1, name="hidden1",
activation=tf.nn.relu)
hidden2 = tf.layers.dense(hidden1, n_hidden2, name="hidden2",
activation=tf.nn.relu)
logits = tf.layers.dense(hidden2, n_outputs, name="outputs")
with tf.name_scope("loss"):
xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
loss = tf.reduce_mean(xentropy, name="loss")
learning_rate = 0.1
with tf.name_scope("train"):
optimizer = tf.train.GradientDescentOptimizer(learning_rate)
training_op = optimizer.minimize(loss)
init = tf.global_variables_initializer()
saver = tf.train.Saver()
# Training data. In every 1-D array, the first 4 elements are features and the last element is a label/output.
train_x = [[11, 3, 2, 4, 150000], [9, 2, 1, 2, 90000], [10, 4, 3, 1, 140000], [11, 3, 4, 4, 170000],
[8, 2, 1, 3, 105000], [7, 2, 1, 2, 95000], [11, 4, 2, 4, 145000], [10, 4, 1, 4, 110000],
[9, 3, 4, 4, 160000], [8, 2, 3, 4, 145000], [7, 4, 2, 4, 130000], [8, 2, 1, 2, 101000],
[10, 2, 2, 3, 130000], [10, 3, 3, 3, 140000], [8, 3, 1, 2, 105000], [7, 4, 1, 3, 95000],
[10, 3, 4, 3, 165000], [10, 3, 4, 4, 167000], [10, 4, 4, 1, 166000], [8, 4, 2, 4, 137000],
[9, 2, 2, 4, 140000], [8, 2, 2, 2, 142000], [9, 2, 2, 3, 143000], [9, 2, 2, 4, 144000], [8, 4, 2, 2, 140000],
[6, 4, 1, 4, 110000], [7, 3, 1, 2, 100000], [8, 3, 1, 3, 101000], [7, 2, 1, 3, 100000], [7, 2, 1, 3, 950000],
[7, 4, 1, 4, 980000], [8, 4, 1, 4, 100000], [8, 3, 1, 4, 100000], [9, 3, 1, 2, 101000], [8, 3, 1, 2, 107000],
[8, 3, 2, 2, 110000], [8, 2, 2, 3, 115000], [7, 4, 2, 2, 112000], [8, 2, 2, 4, 120000], [8, 4, 2, 4, 122000],
[8, 2, 2, 3, 120000], [8, 3, 2, 4, 123000], [8, 3, 2, 4, 121000], [8, 2, 2, 4, 121000], [8, 4, 2, 2, 120000]]
with tf.Session() as sess:
init.run()
#Training
for i in range(0, 45):
X_batch = [train_x[i][:4]]
y_batch = train_x[i][4:]
sess.run(training_op, feed_dict={X: X_batch, y: y_batch})
# Testing
for i in range(0, 45):
pred_data = logits.eval(feed_dict={X: [train_x[i][:4]]})
pred = np.argmax(pred_data, axis=1)
print("Predicted Value : ", pred, " Expected Value :", train_x[i][4:])
这就是预测结果如下:
Predicted Value : [140000] Expected Value : [150000]
Predicted Value : [140000] Expected Value : [90000]
Predicted Value : [140000] Expected Value : [140000]
Predicted Value : [140000] Expected Value : [170000]
Predicted Value : [140000] Expected Value : [105000]
Predicted Value : [140000] Expected Value : [95000]
Predicted Value : [140000] Expected Value : [145000]
Predicted Value : [140000] Expected Value : [110000]
Predicted Value : [140000] Expected Value : [160000]
Predicted Value : [140000] Expected Value : [145000]
Predicted Value : [140000] Expected Value : [130000]
Predicted Value : [140000] Expected Value : [101000]
...
我尝试过基本规范化,改变学习率等。从其他帖子和问题,但没有得到任何结果。
感谢您的帮助。
答案 0 :(得分:4)
我认为问题在于您将此回归问题视为分类问题。你没有试图直接预测薪水中的美元数量,而是生成一个1,000,000长度的向量,然后选择具有最大值的索引。
这种方法存在四个问题。首先,您仅尝试使用45个示例来训练(4 x 2) + (2 x 2) + (2 x 1,000,000) = 2,000,012
边缘权重。这还不够。
其次,假设您希望将此视为分类问题,则输入的y
为整数,而输出为1,000,000长度向量。我不知道在哪里或者甚至将此整数转换为长度为1,000,000的单热矢量,以便输入和输出具有可比性。
第三,对于标签互斥的多类别分类问题(即某人的薪水同时为15,000美元和18,000美元),标准程序是给输出{{3} }。实际效果是,在训练过程中,网络学会只有1个输出节点,其值接近1,接近0时为其他所有节点。
第四,通过将薪资预测视为一个分类问题,网络将预期薪水与预期值相差1美元,与预测薪水相差10,000美元。这显然不是真的。尝试训练单个节点(激活relu
以避免负薪),而不是训练1,000,000个节点输出。然后将输出节点的值作为预测工资而不是argmax。