并行/分布式Q学习,如何组合Q表?

时间:2019-12-17 13:14:53

标签: machine-learning reinforcement-learning q-learning

我正在模拟环境中的单个系统上运行Q学习。通过使用带有以下内容的字典来创建Q表:

  

键=状态(描述为字符串)

     

值= Q值(包括每个操作)到目前为止的更新数量 n (以单个字符串组合)

我正在考虑在单独的计算机上运行相同的模拟和Q学习。最终将导致两个具有相同结构但Q值不同(最可能)的Q表。

我可以使用加权平均值e将两个Q表(字典)合并吗? g。:

还是有更标准的方法?

0 个答案:

没有答案