Question

这就是代码：

X = tf.placeholder(tf.float32, [batch_size, seq_len_1, 1], name='X')
labels = tf.placeholder(tf.float32, [None, alpha_size], name='labels')

rnn_cell = tf.contrib.rnn.BasicLSTMCell(512)
m_rnn_cell = tf.contrib.rnn.MultiRNNCell([rnn_cell] * 3, state_is_tuple=True)
pre_prediction, state = tf.nn.dynamic_rnn(m_rnn_cell, X, dtype=tf.float32)

这是完整的错误：

ValueError：尝试共享变量rnn / multi_rnn_cell / cell_0 / basic_lstm_cell / kernel，但指定形状（1024,2048）并找到形状（513,2048）。

我正在使用GPU版本的tensorflow。

Answer 1

当我升级到v1.2（tensorflow-gpu）时遇到了类似的问题。我没有使用[rnn_cell]*3，而是通过循环创建3 rnn_cells（stacked_rnn）（以便它们不共享变量）并将MultiRNNCell与stacked_rnn一起提供，问题就出现了远。我不确定这是否正确。

stacked_rnn = []
for iiLyr in range(3):
    stacked_rnn.append(tf.nn.rnn_cell.LSTMCell(num_units=512, state_is_tuple=True))
MultiLyr_cell = tf.nn.rnn_cell.MultiRNNCell(cells=stacked_rnn, state_is_tuple=True)

Answer 2

TensorFlow官方教程推荐了多种LSTM网络定义方式：

def lstm_cell():
  return tf.contrib.rnn.BasicLSTMCell(lstm_size)
stacked_lstm = tf.contrib.rnn.MultiRNNCell(
    [lstm_cell() for _ in range(number_of_layers)])

您可以在此处找到它：https://www.tensorflow.org/tutorials/recurrent

实际上它与Wasi Ahmad和Maosi Chen建议的方法几乎相同，但可能更优雅一些。

Answer 3

我猜是因为你的3层中的每一层都有相同的输入和输出形状。

在第1层，每批次的每个时间戳的输入维度为513 = 1（您的x维度）+ 512（隐藏图层的维度）。

在第2层和第3层，输入维度为1024 = 512（从前一层输出）+ 512（从前一时间戳输出）。

堆叠MultiRNNCell的方式可能意味着3个单元共享相同的输入和输出形状。

我通过声明两个不同类型的单元格来堆叠MultiRNNCell，以防止它们共享输入形状

rnn_cell1 = tf.contrib.rnn.BasicLSTMCell(512)
run_cell2 = tf.contrib.rnn.BasicLSTMCell(512)
stack_rnn = [rnn_cell1]
for i in range(1, 3):
    stack_rnn.append(rnn_cell2)
m_rnn_cell = tf.contrib.rnn.MultiRNNCell(stack_rnn, state_is_tuple = True)

然后我能够在没有此错误的情况下训练我的数据。我不确定我的猜测是否正确，但它对我有用。希望它适合你。

Answer 4

我在使用Google Colab的Jupiter笔记本时遇到了相同的问题。我通过重新启动内核然后重新运行代码解决了该问题。

ValueError：尝试共享变量rnn / multi_rnn_cell / cell_0 / basic_lstm_cell / kernel

4 个答案: