标签: machine-learning deep-learning recommendation-engine q-learning
我想在零售业推荐系统上使用DQN
但问题是,这个问题的状态空间是时间不均匀的。不确定性
(与Atari比赛相比)
我找出了解决这个问题的两种方法
但......他们两个似乎没有意义
某人point out此类问题
如果我想建立一个基于强化学习的推荐系统
我应该从哪里开始?