标签: machine-learning reinforcement-learning policy-gradient-descent
策略只是状态到动作的映射。它如何被参数化?有人可以解释。
答案 0 :(得分:1)
用于更新网络参数的策略。该策略记为?(a | s,?)= Pr {At = a | St = s,?t = ?},这意味着策略?是在状态s且参数为?时采取行动a的概率。 请检查以下链接以获取详细信息。 https://towardsdatascience.com/policy-based-reinforcement-learning-the-easy-way-8de9a3356083