我有兴趣使用深度强化学习,以便在(太多)可能性和一些(必需)中间采场(例如,购买咖啡或加油)中找到一条唯一的最佳回家之路。< / p>
此外,如果代理不知道环境的“模型”,并且代理根本无法尝试所有可能的状态和动作组合,我想将其应用。即需要在Q值函数(和/或策略)中使用近似技术。
我已经阅读了处理此类情况的方法-奖励(如果有的话)是稀疏的和二进制的-例如蒙特卡洛树搜索(根据我的理解,这意味着某种建模和计划)或Hindsight Experience Replay (HER),运用DDPG的想法。
但是要考虑的算法种类繁多,我有点困惑,一开始最好。 我知道这是一个棘手的问题,也许问这个问题太天真了,但是有没有明确,直接且我们知道的方法来解决我要面对的问题?
非常感谢!
Matias
答案 0 :(得分:0)
如果最终目的地是固定的(在这种情况下(家)),则可以进行动态搜索,因为a *由于环境的变化而无法使用。 而且,如果您想使用深度学习算法,则由于动作/状态空间较大,因此请尝试 a3c 重玩。它能够处理复杂的探针。