我正在构建单人棋盘游戏作为业余爱好和Q学习者。我将创建一个奖励表(状态,行动)作为q学习的哲学。我会在关键按下后将每个董事会成员状态作为一个州的状态&#39;和董事会是vector<vector<int > > Board
。每个动作中始终有8个可能的按键操作,并且代码将需要比较状态是否与先前探索的状态匹配并相应地重新评估奖励。如果不是,它会将其作为新状态推送/插入。因此,它需要比较以快速方式存储int的向量的向量,并且action将是用于奖励的表的第二维度。我应该采取什么样的方法进行比较?图/套?还有什么吗?