如何用数字表示形式表示强化学习。 (创建一个Q表)

时间:2019-01-03 01:56:52

标签: reinforcement-learning

我正在研究一种Q学习算法,需要构造一个公式来通过混合多种颜色来创建自定义颜色。因此,这里的目的是为所有有效的自定义颜色生成一个公式

成功的论坛-奖励自己的成就

错误的公式-处以罚款的行为人

基本上,我有10种基色需要从中生成自定义颜色。基本颜色是红色,绿色,蓝色,白色,黑色,黄色等

我正在使用一种编码方式-基本编码

red   here is [1,0,0,0,0,0,0,0,0,0]
green here is [0,1,0,0,0,0,0,0,0,0]
blue  here is [0,0,1,0,0,0,0,0,0,0]
white here is [0,0,0,1,0,0,0,0,0,0]
black here is [0,0,0,0,1,0,0,0,0,0]
yellow     is [0,0,0,0,0,1,0,0,0,0]
etc,etc

如果我想生成

CASE 1: pink color then it is a mix of red + white  ( GOOD FORMULA )
CASE 2: light green colour then it is a mix of green + white  ( GOOD FORMULA )
CASE 3: grey colour then it is a mix of black + white   ( GOOD FORMULA )
CASE 4: purple colour then it is a mix of pink + black  ( GOOD FORMULA )
CASE 5: eggplant colour is purple + green  ( GOOD FORMULA )
CASE 6: BAD colour is purple + black  ( BAD FORMULA )

我想,状态是一种颜色,并且该操作正在选择另一种颜色,从而生成自定义颜色。

如果状态是基色之一,我可以用颜色表示状态(使用一种热编码)。

但是,如果状态是自定义颜色,是否可以用数字表示形式来表示呢? (对于案例4,案例5和案例6)

我希望我的案子越清楚越好。由于有10种基色,因此组合非常庞大,因此各州也是如此。不知道如何从这里继续。任何指导都将带来巨大帮助

0 个答案:

没有答案