应用错误收集

我正在模拟环境中的单个系统上运行Q学习。通过使用带有以下内容的字典来创建Q表：

键=状态（描述为字符串）

值= Q值（包括每个操作）到目前为止的更新数量 n （以单个字符串组合）

我正在考虑在单独的计算机上运行相同的模拟和Q学习。最终将导致两个具有相同结构但Q值不同（最可能）的Q表。

我可以使用加权平均值e将两个Q表（字典）合并吗？ g。：

$Q_{combined}\left ( s,a \right ) = \frac{n_1 \cdot Q_{table 1}\left ( s,a \right ) + n_2 \cdot Q_{table 2}\left ( s,a \right )}{n_1 + n_2}$

还是有更标准的方法？