我注意到有些论文涉及软代理,我认为这只是一个将熵包含在政策网络的目标函数中的代理。但是现在我不确定了。有人可以确认或提供其他解释吗?
答案 0 :(得分:0)
因此,似乎是这种情况。问了熵在ai.stackexchange上进入SAC的位置,并为感兴趣的人提供了很好的答案。
答案 1 :(得分:0)
epsilon-soft策略是一种在每个州都至少有epsilon概率采取所有措施的策略。 (来源http://incompleteideas.net/sutton/book/RLbook2018.pdf练习4.6第82页(pdf的104))。软策略是一种以正概率采取所有措施的策略(第100/122页)。