关于推荐系统的DQN

时间:2016-10-27 09:30:39

标签: machine-learning deep-learning recommendation-engine q-learning

我想在零售业推荐系统上使用DQN

但问题是,这个问题的状态空间是时间不均匀的。不确定性

(与Atari比赛相比)

我找出了解决这个问题的两种方法

  • 使状态转换成为确定性的
  • 使用历史数据计算转移概率,使用概率转换状态

但......他们两个似乎没有意义

某人point out此类问题

如果我想建立一个基于强化学习的推荐系统

我应该从哪里开始?

0 个答案:

没有答案