应用错误收集

我正在为马尔可夫决策过程寻找求解器/优化器的求解器/ 随机最优控制问题（另见Sequential Decision Making under Uncertainty。

这个问题是由一组微分方程描述的，但它是我的时间离散化。

d w / dt = u f(w) + z * w
d R / dt = (1-u) g(w)

其中f（。），g（t）是某个函数，z是具有正态/对数正态/幂律概率分布的随机变量，u是包含在[0,1]中的控制。你可能会及时改变。

优化标准可能是最终时间T的平均收入：

max_u E[R(T)]_z

我正在寻找类似http://nicky.vanforeest.com/probability/mdp/mdp.html但类似于c / c ++的库，可以解决这类问题。