我想提出一个深度Q学习模型,以建议最适合的时隙(24小时内的任何时隙)来进行特定的活动。
我是深度学习的新手,但是我对机器学习(监督和无监督)有基本的了解。根据我的理解,我感觉我的动作空间是连续的,因为我的移动应用程序可以预测任何时隙进行某些活动,并根据用户的反馈确定我的报酬。 代理-我的移动应用 动作-建议进行活动的时段 奖励是根据论文行动的结果来定义的。 -如果用户在给定的时间段内进行活动,则该活动将被计为正面奖励 -如果用户推迟提醒,则将是负面奖励。 有7个州(一周7天) 集-一周内完成一项活动时间表
我想知道这是否是一种很好的RL方法,如果可以的话,请您提供一些参考资源。预先感谢。