我正在尝试从头开始学习imdb数据集的单词表示"#34;通过TensorFlow tf.nn.embedding_lookup()
函数。如果我理解正确,我必须在另一个隐藏层之前设置一个嵌入层,然后当我执行渐变下降时,该层将“学习”#34;该图层权重中的单词表示。但是,当我尝试这样做时,我的嵌入层与网络的第一个完全连接层之间出现了形状错误。
def multilayer_perceptron(_X, _weights, _biases):
with tf.device('/cpu:0'), tf.name_scope("embedding"):
W = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0),name="W")
embedding_layer = tf.nn.embedding_lookup(W, _X)
layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(embedding_layer, _weights['h1']), _biases['b1']))
layer_2 = tf.nn.sigmoid(tf.add(tf.matmul(layer_1, _weights['h2']), _biases['b2']))
return tf.matmul(layer_2, weights['out']) + biases['out']
x = tf.placeholder(tf.int32, [None, n_input])
y = tf.placeholder(tf.float32, [None, n_classes])
pred = multilayer_perceptron(x, weights, biases)
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred,y))
train_step = tf.train.GradientDescentOptimizer(0.3).minimize(cost)
init = tf.initialize_all_variables()
我得到的错误是:
ValueError: Shapes TensorShape([Dimension(None), Dimension(300), Dimension(128)])
and TensorShape([Dimension(None), Dimension(None)]) must have the same rank
答案 0 :(得分:16)
出现形状误差是因为您使用二维张量x
来索引二维嵌入张量W
。将tf.nn.embedding_lookup()
(及其近亲tf.gather()
)视为取i
中的每个整数值x
并将其替换为行W[i, :]
。从错误消息中,可以推断出n_input = 300
和embedding_size = 128
。一般来说,tf.nn.embedding_lookup()
维数等于rank(x) + rank(W) - 1
的结果...在这种情况下,3。当您尝试将此结果乘以_weights['h1']
时出现错误,这是一个(两个) - 维度矩阵。
要修复此代码,这取决于您尝试做什么,以及为什么要将输入矩阵传递给嵌入。一个常见的事情是使用类似tf.reduce_sum()
的操作,将每个输入示例的嵌入向量聚合到每个示例的单行中。例如,您可以执行以下操作:
W = tf.Variable(
tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0) ,name="W")
embedding_layer = tf.nn.embedding_lookup(W, _X)
# Reduce along dimension 1 (`n_input`) to get a single vector (row)
# per input example.
embedding_aggregated = tf.reduce_sum(embedding_layer, [1])
layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(
embedding_aggregated, _weights['h1']), _biases['b1']))
答案 1 :(得分:0)
另一种可能的解决方案是:不是添加嵌入向量,而是将这些向量连接成单个向量,并增加隐藏层中神经元的数量。
我用过:
embedding_aggregated = tf.reshape(embedding_layer, [-1, embedding_size * sequence_length])
此外,我将隐藏层中的神经元数量更改为embedding_size * sequence_length
。
观察:使用连接而不是添加也提高了准确性。