批量增加会降低可训练参数

时间:2020-07-18 04:48:23

标签: python-3.x tensorflow keras nlp

我正在使用LSTM +注意层进行句子分类任务。我已经观察到,在简单的LSTM模型中,我的总可训练参数为14705,批次大小为64,但是当我将注意层与LSTM一起使用时,对于相同的批次大小,可训练参数减少为230。而对于4的批次大小,则增加到3077。此外,由于关注层的批次大小为64,因此仅在时期增加了1。

怎么可能?

这是批处理大小为64的关注层的屏幕截图

enter image description here

这是批量大小为64的LSTM层的屏幕截图。

enter image description here

1 个答案:

答案 0 :(得分:0)

我认为您的意思是数据数量,而不是参数。

批次越大,自然就越少。

100个句子= 1个批处理大小* 100个批处理= 10个批处理大小* 10个批处理