应用错误收集

批量增加会降低可训练参数

时间：2020-07-18 04:48:23

标签： python-3.x tensorflow keras nlp

我正在使用LSTM +注意层进行句子分类任务。我已经观察到，在简单的LSTM模型中，我的总可训练参数为14705，批次大小为64，但是当我将注意层与LSTM一起使用时，对于相同的批次大小，可训练参数减少为230。而对于4的批次大小，则增加到3077。此外，由于关注层的批次大小为64，因此仅在时期增加了1。

怎么可能？

这是批处理大小为64的关注层的屏幕截图

这是批量大小为64的LSTM层的屏幕截图。

1 个答案:

答案 0 :(得分：0)

我认为您的意思是数据数量，而不是参数。

批次越大，自然就越少。

100个句子= 1个批处理大小* 100个批处理= 10个批处理大小* 10个批处理

测试集相关性降低，而训练集相关性增加
SPARK：增加DRIVER MEMORY的数量可能会降低性能？
为什么RNCE for Kriging不会因为增加训练数据而严格降低？
增加训练样例会降低最大熵分类器的准确性
tf.cond降低了训练速度
随着设定尺寸的增加，训练集精确度降低
训练样本增加时准确性降低
使用Keras训练单个批次时，准确性会降低吗？
对象检测API：随着训练步骤数量的增加，置信度得分会降低
批量增加会降低可训练参数

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？