我是强化学习的新手。所以这似乎是一个微不足道的问题
假设3个州{x,y,z}和2个行动{a,b}
为什么政策/搜索空间的总数为2 ^ 3 = 8。
考虑这些情况,
x - y - z (actions a,b)
x - z - y (actions a,b)
y - x - z (actions a,b)
y - z - x (actions a,b)
z - x - y (actions a,b)
z - y - x (actions a,b)
这只会给我6条政策?然后考虑* 2由于行动(b,a)它会给我12个政策。
我错过了什么吗?
答案 0 :(得分:2)
假设确定性策略(这是您的情况),策略确定应在每个状态中执行的操作。在您的情况下,您有3个州(x,y,z)
和两个可能的行为(a,b)
。然后,这些是您可能的政策:
+---+---+---+
| x | y | z |
+---+---+---+
| a | a | a |
| a | a | b |
| a | b | a |
| a | b | b |
| b | a | a |
| b | a | b |
| b | b | a |
| b | b | b |
+---+---+---+
我希望现在更清楚为什么政策/搜索空间的总数是2 ^ 3 = 8。