强化学习文学中的“软”是什么意思?

时间:2019-11-27 13:11:33

标签: machine-learning deep-learning artificial-intelligence reinforcement-learning

我注意到有些论文涉及软代理,我认为这只是一个将熵包含在政策网络的目标函数中的代理。但是现在我不确定了。有人可以确认或提供其他解释吗?

2 个答案:

答案 0 :(得分:0)

因此,似乎是这种情况。问了熵在ai.stackexchange上进入SAC的位置,并为感兴趣的人提供了很好的答案。

答案 1 :(得分:0)

epsilon-soft策略是一种在每个州都至少有epsilon概率采取所有措施的策略。 (来源http://incompleteideas.net/sutton/book/RLbook2018.pdf练习4.6第82页(pdf的104))。软策略是一种以正概率采取所有措施的策略(第100/122页)。