标签: machine-learning reinforcement-learning q-learning
我正在模拟环境中的单个系统上运行Q学习。通过使用带有以下内容的字典来创建Q表:
键=状态(描述为字符串) 值= Q值(包括每个操作)到目前为止的更新数量 n (以单个字符串组合)
键=状态(描述为字符串)
值= Q值(包括每个操作)到目前为止的更新数量 n (以单个字符串组合)
我正在考虑在单独的计算机上运行相同的模拟和Q学习。最终将导致两个具有相同结构但Q值不同(最可能)的Q表。
我可以使用加权平均值e将两个Q表(字典)合并吗? g。:
还是有更标准的方法?