我正在研究t = 1,...,40个周期的有限地平线决策问题。在每个时间步长t中,(唯一的)代理必须选择一个动作a(t)∈A(t),而代理处于状态s(t)∈S(t)。在状态s(t)中选择的动作a(t)影响到后续状态s(t + 1)的转换。因此存在有限地平线马尔可夫决策问题。
在我的情况下,以下条件成立:A(t)= A和S(t)= S,而A的大小为6000000,S的大小为10 ^ 8。此外,过渡函数是随机的。
由于我对蒙特卡洛树搜索(MCTS)的理论还比较陌生,所以我问自己:MCTS是否适合解决我的问题(特别是由于A和S的大小以及随机转换函数的原因) ?)
我已经阅读了很多有关MCTS的论文(例如,渐进扩展和双重渐进扩展,这听起来很有希望),但是也许有人可以告诉我他将MCTS应用于类似问题的经验或解决该问题的适当方法(具有较大的状态/动作空间和随机转移函数。
答案 0 :(得分:1)
每个状态有600万个随机动作,我认为实际上没有任何一种模拟能够真正区分这些动作而无需永远运行。
100 MM状态并不多,您可以将所有这些状态的值存储在不到1 GB的内存中,诸如值迭代或策略迭代之类的方法可以更快地解决此问题。