标签: matrix machine-learning hashmap q-learning
我构造了一个Q表,它是哈希图的hasmap。像这样:
observation1: action1: Qvalue1 action2: Qvalue2
因此,一个将每个观察结果映射到另一个将操作映射到q值的hasmap的哈希图。
我注意到构造q表的“通用”方法是在矩阵中对其建模。
人们将如何将我的实现转换为矩阵?