Thinbug
News
汤普森采样期间给定状态变化的奖励概率
时间:2018-11-14 20:20:17
标签:
reinforcement-learning
例如,在多武装匪徒中: 假设该算法已经找到了最好的机器。 如果机器的配置突然改变怎么办? (更改奖励概率) 算法会重新调整并找到最佳的新机器吗?
0 个答案:
没有答案
相关问题
水库采样问题
在Thompson采样期间更改参数
采样分配
水库采样理解概率
加速度计采样频率在显示超时期间发生变化
多臂匪徒thompson采样非二元奖励
使用拒绝方法进行抽样
围绕半球均匀采样
抽样分布正态近似拟合
汤普森采样期间给定状态变化的奖励概率
最新问题
我写了这段代码,但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值,但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场?
是否有可能使 loadstring 不可能等于打印?卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用?
在此代码中是否有使用“this”的替代方法?
在 SQL Server 和 PostgreSQL 上查询,我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源?