标签: neural-network backpropagation reinforcement-learning
如果有其他商品,请指点我。我毫不怀疑这是一个常见的问题,但我找不到答案。
让我们说我有一个神经网络,有多个输出,没有绝对已知的答案(例如在赛道上转弯时要按哪些按钮)。我也有一个单一的决定和一个结果来进行我的调整。 我应该使用什么数学来正确计算每个输出节点的错误?是否只是[实际 - 预测]并传播回来,对于每个输出节点都是如此?
此外,如果没有使用所有输出,我应该更新所有输出还是仅更新有效输出?在汽车的例子中,说我向左按下并加速,这是一个糟糕的答案,我还会更新正确,休息,上下作为积极因素吗?