应用错误收集

强化学习中的参数化政策是什么意思？

时间：2020-03-13 08:17:44

标签： machine-learning reinforcement-learning policy-gradient-descent

策略只是状态到动作的映射。它如何被参数化？有人可以解释。

1 个答案:

答案 0 :(得分：1)

用于更新网络参数的策略。该策略记为?（a | s，?）= Pr {At = a | St = s，?t = ?}，这意味着策略?是在状态s且参数为?时采取行动a的概率。请检查以下链接以获取详细信息。 https://towardsdatascience.com/policy-based-reinforcement-learning-the-easy-way-8de9a3356083