Question

我正在使用《使用Tensorflow进行预测分析》一书中第11章显示的代码（代码在GitHub上给出）。它试图建立基本的Q学习功能来交易历史股票数据。我已经对其进行了一些修改，以获取输入的任何库存的新历史数据。

我发现即使我的epsilon设置得很低，q学习也没有太大改善，并且似乎在“探索”很多东西。这是100次运行中所有最终投资组合大小的输出图：

我希望看到这种情况呈上升趋势，而不是像现在这样。我已经使用500集和100集运行了该模型，并且我尝试过极大地调整epsilon，学习率和伽玛，以尝试在上一次运行时对其进行改进，但并不成功。当然，我还是q学习的新手。有人可以告诉我如何实施以使其更好地工作吗？也许有一种方法可以保存/加载以最佳最终投资组合大小生成的模型？谢谢！

audioManager = ((AudioManager)getSystemService(Context.AUDIO_SERVICE));

Q学习模型不会随着时间的推移而改善

0 个答案: