为什么GRU层的参数数是9600?
不是((16 + 32)* 32 + 32)* 3 * 2 = 9,408吗?
或重新排列
32 *(16 + 32 + 1)* 3 * 2 = 9408
model = tf.keras.Sequential([
tf.keras.layers.Embedding(input_dim=4500, output_dim=16, input_length=200),
tf.keras.layers.Bidirectional(tf.keras.layers.GRU(32)),
tf.keras.layers.Dense(6, activation='relu'),
tf.keras.layers.Dense(1, activation='sigmoid')
])
model.compile(loss='binary_crossentropy',optimizer='adam',metrics=['accuracy'])
model.summary()
答案 0 :(得分:3)
关键是当reset_after=True
中的参数GRUCell
时,张量流将为输入内核和循环内核分离偏差。您可以按照以下步骤查看GRUCell
中的source code:
if self.use_bias:
if not self.reset_after:
bias_shape = (3 * self.units,)
else:
# separate biases for input and recurrent kernels
# Note: the shape is intentionally different from CuDNNGRU biases
# `(2 * 3 * self.units,)`, so that we can distinguish the classes
# when loading and converting saved weights.
bias_shape = (2, 3 * self.units)
但是,如果我们设置reset_after=True
,则实际公式如下:
如您所见,GRU
的默认参数是reset_after=True
中的tensorflow2
。但是GRU
的默认参数是reset_after=False
中的tensorflow1.x
。
因此,GRU
中((16+32)*32 + 32 + 32) * 3 * 2 = 9600
层的参数数应为tensorflow2
。
答案 1 :(得分:0)
除了已接受的答案外,我还想出了一些更多的信息。 Keras在GRUCell.call()
中的工作是:
使用reset_after=False
(在TensorFlow 1中为默认设置):
使用reset_after=True
(在TensorFlow 2中为默认设置):
用reset_after=False
训练后,b_xh
等于b_hz
,b_xr
等于b_hr
,b_xh
等于b_hh
,因为(我假设)TensorFlow意识到这些向量对中的每对都可以组合为一个参数向量,就像上面的注释中指出的OP一样。但是,对于reset_after=True
和b_xh
来说,不是 情况-它们可以并且将有所不同,因此它们可以不是组合成一个向量,这就是为什么总参数计数更高的原因。