强化学习中的参数化政策是什么意思?

时间:2020-03-13 08:17:44

标签: machine-learning reinforcement-learning policy-gradient-descent

策略只是状态到动作的映射。它如何被参数化?有人可以解释。

1 个答案:

答案 0 :(得分:1)

用于更新网络参数的策略。该策略记为?(a | s,?)= Pr {At = a | St = s,?t = ?},这意味着策略?是在状态s且参数为?时采取行动a的概率。 请检查以下链接以获取详细信息。 https://towardsdatascience.com/policy-based-reinforcement-learning-the-easy-way-8de9a3356083