neural-network - 神经网络如何知道它从行动中得到的奖励？

您应该熟悉培训和推理。

在训练阶段，您向神经网络提供输入和所需输出。编码所需输出的确切方式可能有所不同;一种方法是定义奖励功能。然后定义权重调整程序以优化奖励

在生产中，网络用于推理。您现在用它来预测未知结果，但您不会更新权重。因此，在这个阶段你没有奖励功能。

这使得神经网络成为监督学习的一种形式。如果您需要无监督学习，通常会遇到更大的问题，并且可能需要不同的算法。一种例外是您可以事后自动评估预测的质量。一个例子是CPU的分支预测器;这可以使用分支机构的实际数据进行培训。