Question

我不明白这些网络中最小化的是什么。当LSTM网络中的损失变小时，有人可以解释一下数学上的情况吗？

model.compile(loss='categorical_crossentropy', optimizer='adam')

Answer 1

从keras documentation开始，categorical_crossentropy只是多类logloss。日志丢失的数学和理论解释here。

基本上，LSTM会为单词（或字符，具体取决于您的模型）分配标签，并通过惩罚单词（或字符）序列中的错误标签来优化模型。该模型采用输入字或字符向量，并尝试根据训练示例猜测下一个“最佳”字。分类交叉熵是衡量猜测有多好的定量方法。当模型迭代训练集时，它会在猜测下一个最佳单词（或字符）时减少错误。