我不明白这些网络中最小化的是什么。 当LSTM网络中的损失变小时,有人可以解释一下数学上的情况吗?
model.compile(loss='categorical_crossentropy', optimizer='adam')
答案 0 :(得分:5)
从keras documentation开始,categorical_crossentropy
只是多类logloss。日志丢失的数学和理论解释here。
基本上,LSTM会为单词(或字符,具体取决于您的模型)分配标签,并通过惩罚单词(或字符)序列中的错误标签来优化模型。该模型采用输入字或字符向量,并尝试根据训练示例猜测下一个“最佳”字。分类交叉熵是衡量猜测有多好的定量方法。当模型迭代训练集时,它会在猜测下一个最佳单词(或字符)时减少错误。