标签: optimization machine-learning reinforcement-learning
我试图在this link等许多资源中找到pi *。但是,我找不到什么是pi *。 V *与V_pi *相同吗?
Screenshot of the question
答案 0 :(得分:2)
π*用于表示“最优政策”。 V *和Q *是最佳值函数。最优价值函数导致最优政策。
查看https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm