我正在使用LSTM +注意层进行句子分类任务。我已经观察到,在简单的LSTM模型中,我的总可训练参数为14705,批次大小为64,但是当我将注意层与LSTM一起使用时,对于相同的批次大小,可训练参数减少为230。而对于4的批次大小,则增加到3077。此外,由于关注层的批次大小为64,因此仅在时期增加了1。
怎么可能?
这是批处理大小为64的关注层的屏幕截图
这是批量大小为64的LSTM层的屏幕截图。
答案 0 :(得分:0)
我认为您的意思是数据数量,而不是参数。
批次越大,自然就越少。
100个句子= 1个批处理大小* 100个批处理= 10个批处理大小* 10个批处理