应用错误收集

问：学习，玩拉米纸牌的状态，动作和奖励是什么？

时间：2019-11-24 16:23:41

标签： machine-learning reinforcement-learning q-learning

我正在研究用于rummy的q学习算法，我必须生成一个Q表，将其作为Q [state，action]，因为在rummy游戏中，action是pick还是drop我的值设置为2至于州，数字是多少？（问题1）

就目前而言，牌组/堆牌/存储区中的牌是每种类型的A，1、2、3、4、5、6和7，那就是大约28张牌+ 4个A，这意味着我有32个州？如果是这样，当我更新其中的Q表值时，这实际上意味着什么。（问题2）

在上述情况下，如何设计奖励表（问题3）

帮助表示赞赏。

0 个答案:

没有答案