Tensorflow RNN细胞具有不同的权重

时间:2017-09-24 08:24:22

标签: python python-3.x tensorflow neural-network rnn

我试图在tensorflow中编写一个简单的RNN,基于这里的教程:https://danijar.com/introduction-to-recurrent-networks-in-tensorflow/ (我使用简单的RNN小区而不是GRU,而不是使用丢失)。

我感到困惑,因为我的序列中的不同RNN细胞似乎被分配了不同的权重。如果我运行以下代码

import tensorflow as tf

seq_length = 3
n_h = 100   # Number of hidden units
n_x = 26    # Size of input layer
n_y = 26    # Size of output layer

inputs = tf.placeholder(tf.float32, [None, seq_length, n_x])

cells = []
for _ in range(seq_length):
    cell = tf.contrib.rnn.BasicRNNCell(n_h)
    cells.append(cell)
multi_rnn_cell = tf.contrib.rnn.MultiRNNCell(cells)

initial_state = tf.placeholder(tf.float32, [None, n_h])

outputs_h, output_final_state = tf.nn.dynamic_rnn(multi_rnn_cell, inputs, dtype=tf.float32)

sess = tf.Session()
sess.run(tf.global_variables_initializer())

print('Trainable variables:')
for v in tf.trainable_variables():
    print(v)

如果我在python 3中运行它,我得到以下输出:

Trainable variables:
<tf.Variable 'rnn/multi_rnn_cell/cell_0/basic_rnn_cell/kernel:0' shape=(126, 100) dtype=float32_ref>
<tf.Variable 'rnn/multi_rnn_cell/cell_0/basic_rnn_cell/bias:0' shape=(100,) dtype=float32_ref>
<tf.Variable 'rnn/multi_rnn_cell/cell_1/basic_rnn_cell/kernel:0' shape=(200, 100) dtype=float32_ref>
<tf.Variable 'rnn/multi_rnn_cell/cell_1/basic_rnn_cell/bias:0' shape=(100,) dtype=float32_ref>
<tf.Variable 'rnn/multi_rnn_cell/cell_2/basic_rnn_cell/kernel:0' shape=(200, 100) dtype=float32_ref>
<tf.Variable 'rnn/multi_rnn_cell/cell_2/basic_rnn_cell/bias:0' shape=(100,) dtype=float32_ref>

首先,这不是我想要的 - 一个RNN需要从每个层的输入到隐藏和隐藏到隐藏具有相同的权重!

其次,我并不真正理解为什么我得到所有这些单独的变量。如果我查看source code for rnn cells,看起来BasicRNNCell应该调用_linear,它应该查找是否有名为_WEIGHTS_VARIABLE_NAME的变量(全局设置为"kernel" }),并使用它,如果是这样。我不明白"kernel"如何装饰"rnn/multi_rnn_cell/cell_0/basic_rnn_cell/kernel:0"

如果有人能解释我做错了什么,我会非常感激。

1 个答案:

答案 0 :(得分:2)

注意区分两个不同的东西:递归神经网络的层数以及通过Back Propagation Through Time算法展开此RNN以处理序列长度的时间。

在您的代码中:

  • MultiCellRNN负责创建一个3层RNN(你在那里创建三个LAYERS,而MultiCellRNN只是一个包装器,以便更容易处理它们)
  • tf.nn.dynamic_rnn负责多次展开与您的序列长度相关的三层网络