我正在为马尔可夫决策过程寻找求解器/优化器的求解器/ 随机最优控制问题(另见Sequential Decision Making under Uncertainty。
这个问题是由一组微分方程描述的,但它是我的时间离散化。
d w / dt = u f(w) + z * w
d R / dt = (1-u) g(w)
其中f(。),g(t)是某个函数,z是具有正态/对数正态/幂律概率分布的随机变量,u是包含在[0,1]中的控制。你可能会及时改变。
优化标准可能是最终时间T的平均收入:
max_u E[R(T)]_z
我正在寻找类似http://nicky.vanforeest.com/probability/mdp/mdp.html但类似于c / c ++的库,可以解决这类问题。