应用错误收集

我在强化学习和建模算法方面相对较新，该算法可以在我的游戏中实现强化学习。我学习并具有神经网络和Q学习的知识。根据我的游戏规范，我在其中采用了一个带有隐藏层的简单神经网络，在其中加入了无模型，脱离策略的算法：

我的困惑是，如果我要在神经网络中实施Q学习，那将采取什么策略？

感谢您的帮助，谢谢！