我目前正在尝试对游戏进行Q学习,并希望创建Q学习表。从本质上讲,我想要一个2D哈希表,一个数组是四个长保存动作(跳转,左,右和鸭)的数组,另一个可以根据需要进行扩展。例如,在课堂上,将使用“ Wall”和“ Gap”两个状态,而在另一个情况下,将使用“ Wall”,“ Gap”和“ Enemy”三个状态作为其状态。
问题是:如何创建哈希表,以便有两个键可以让您在表中查找操作和状态,并查看它们的组合所带来的收益。例如action [Jump]和state [Wall]还是action [Left]和state [Enemy]?