应用错误收集

下午好，我使用q-learning来模拟以下问题：一组代理可以访问2个访问点（AP）状态来上传数据。 S = {1,2}指向AP1或2的连接的状态集.A = {保持，改变}。我们假设在模拟的总持续时间内，代理可以访问2个AP。目标是在模拟期间上传最大数据。奖励是一个取决于时间的函数，其定义如下：R（t）= alpha * T + b，其中T是时间间隔的长度，b随时间变化。

在这种情况下，将终端条件定义为q表与预定义值的收敛是否正确？如何表达开发阶段（因为没有将步骤定义为最终目标）？

提前感谢您的帮助。

Q学习算法

0 个答案: