我正在使用《使用Tensorflow进行预测分析》一书中第11章显示的代码(代码在GitHub上给出)。它试图建立基本的Q学习功能来交易历史股票数据。我已经对其进行了一些修改,以获取输入的任何库存的新历史数据。
我发现即使我的epsilon设置得很低,q学习也没有太大改善,并且似乎在“探索”很多东西。这是100次运行中所有最终投资组合大小的输出图:
我希望看到这种情况呈上升趋势,而不是像现在这样。我已经使用500集和100集运行了该模型,并且我尝试过极大地调整epsilon,学习率和伽玛,以尝试在上一次运行时对其进行改进,但并不成功。当然,我还是q学习的新手。有人可以告诉我如何实施以使其更好地工作吗?也许有一种方法可以保存/加载以最佳最终投资组合大小生成的模型?谢谢!
audioManager = ((AudioManager)getSystemService(Context.AUDIO_SERVICE));