问:学习,玩拉米纸牌的状态,动作和奖励是什么?

时间:2019-11-24 16:23:41

标签: machine-learning reinforcement-learning q-learning

我正在研究用于rummy的q学习算法,我必须生成一个Q表,将其作为Q [state,action],因为在rummy游戏中,action是pick还是drop我的值设置为2至于州,数字是多少? (问题1)

就目前而言,牌组/堆牌/存储区中的牌是每种类型的A,1、2、3、4、5、6和7,那就是大约28张牌+ 4个A,这意味着我有32个州?如果是这样,当我更新其中的Q表值时,这实际上意味着什么。 (问题2)

在上述情况下,如何设计奖励表(问题3)

帮助表示赞赏。

0 个答案:

没有答案