Question

我有一个随机最优控制问题，我希望使用某种类型的基于贝叶斯仿真的框架来解决。我的问题有以下一般结构：

s_t+1 = r*s_t(1 - s_t) - x_t+1 + epsilon_t+1
x_t+1 ~ Beta(u_t+1, w_t+1)
u_t+1 = f_1(u_t,w_t, s_t, x_t)
w_t+1 = f_2(u_t,w_t, s_t, x_t)
epsilon_t ~ Normal(0,sigma)
objective function: max_{x_t} E(Sigma_{t=0}^{T} V(s_t,x_t,c) * rho^t)

我的目标是探索f_1，f_2和V的不同函数形式，以确定该模型如何与非随机模型和另一个更简单的随机模型相区别。

状态变量是s_t，控制变量是x_t，其中u_t和w_t表示对当前状态的一些信念。目标函数是在时间段t = 0到t = T期间从增益（函数V）的折扣最大值。

我在考虑使用Python，特别是PyMC来解决这个问题，虽然我不确定如何继续，具体如何优化控制变量。我找到了一本书，1967年出版，Masanao Aoki的随机系统优化，引用了一些可能有用的贝叶斯技术，是否有一个当前的Python实现可能会有所帮助？或者是否有更好的方法来模拟最佳路径，使用Python？

Answer 1

我想到的第一个猜测是尝试像chainer或theano这样的神经网络包，它可以跟踪控制函数参数的成本函数的导数;他们还有一堆优化插件例程。您可以使用numpy.random生成样本（粒子），从库组件组成控制函数，并通过显式Euler方案运行它们进行首次尝试。这将为您提供粒子的成本函数及其相对于参数的导数，这些函数可以提供给优化器。

这里可能出现的问题是求解器的迭代将创建一系列衍生跟踪对象。

更新： 请参阅this example on Github

Github上还有很多关键字particle filter python点击：

https://github.com/strohel/PyBayes

https://github.com/jerkern/pyParticleEst

还有a manuscript around提到作者在Python中实现了过滤器，因此您可能希望与他们联系。

贝叶斯随机最优控制，MCMC

1 个答案: