我正在改进基于动态-lstm的模型以预测命名实体识别。我很困惑动态lstm如何训练和预测。据我所知,Lstm必须具有相同长度的输入。否则,权重矩阵将不同,并且无法进行训练和更新。我猜所有训练数据要么通过填充使用最长序列的长度,要么动态LSTM本身选择截断句子以确保每个训练数据具有相同的长度。
我也困惑动态Lstm如何预测。如果测试序列长于任何训练数据,那是否意味着应该切断测试序列。在这种情况下,我们如何获得被切除部分的命名实体识别。
我得到了一些答案,即批次中的每个训练数据应具有相同的长度,但是在训练过程中,每个批次的权重矩阵不同。在这种情况下,如何动态训练。我一直认为Lstm对于每个训练数据都应具有固定的权重矩阵。我错了吗