应用错误收集

时间：2019-03-13 11:21:05

标签： machine-learning deep-learning artificial-intelligence reinforcement-learning approximate-nn-searching

我有兴趣使用深度强化学习，以便在（太多）可能性和一些（必需）中间采场（例如，购买咖啡或加油）中找到一条唯一的最佳回家之路。< / p>

此外，如果代理不知道环境的“模型”，并且代理根本无法尝试所有可能的状态和动作组合，我想将其应用。即需要在Q值函数（和/或策略）中使用近似技术。

我已经阅读了处理此类情况的方法-奖励（如果有的话）是稀疏的和二进制的-例如蒙特卡洛树搜索（根据我的理解，这意味着某种建模和计划）或Hindsight Experience Replay （HER），运用DDPG的想法。

但是要考虑的算法种类繁多，我有点困惑，一开始最好。我知道这是一个棘手的问题，也许问这个问题太天真了，但是有没有明确，直接且我们知道的方法来解决我要面对的问题？

非常感谢！

Matias

答案 0 :(得分：0)

如果最终目的地是固定的（在这种情况下（家）），则可以进行动态搜索，因为a *由于环境的变化而无法使用。而且，如果您想使用深度学习算法，则由于动作/状态空间较大，因此请尝试 a3c 重玩。它能够处理复杂的探针。