应用错误收集

如何通过线性函数逼近选择我的q-学习特征

时间：2016-07-25 08:18:38

标签： machine-learning reinforcement-learning q-learning function-approximation

我正在使用强化学习来开发AI。

这是一个玩家应该避免砖块从天而降的游戏。

有20块砖倒在地上。 game screen shot，game play video link

我使用具有线性函数的强化学习来实现AI。

很难选择最佳功能来获得满意的结果。

无论如何，自从我试图成功以来，它最终获得了最高分。

但这很奇怪。

有一些原因。

在10次训练中很快就达到了收敛状态。
我刚刚使用了6个功能。
通过多次训练，我无法获得更好的成绩。（就像我希望我的ai像超级玩家一样玩。虽然看起来不像。）

与此同时，我试图使用很多功能。我将功能定义为游戏屏幕尺寸（960 * 640）。

我填补了玩家的砖块相对坐标的功能。我希望能比以前更好的结果。我训练了这种方法7个小时，但没有成功。

底线是我应该如何选择功能以使其发挥最佳效果？还是有任何不同的方法来解决它？

0 个答案:

没有答案