标签: machine-learning reinforcement-learning q-learning
我正在研究用于rummy的q学习算法,我必须生成一个Q表,将其作为Q [state,action],因为在rummy游戏中,action是pick还是drop我的值设置为2至于州,数字是多少? (问题1)
就目前而言,牌组/堆牌/存储区中的牌是每种类型的A,1、2、3、4、5、6和7,那就是大约28张牌+ 4个A,这意味着我有32个州?如果是这样,当我更新其中的Q表值时,这实际上意味着什么。 (问题2)
在上述情况下,如何设计奖励表(问题3)
帮助表示赞赏。