应用错误收集

关于推荐系统的DQN

时间：2016-10-27 09:30:39

标签： machine-learning deep-learning recommendation-engine q-learning

我想在零售业推荐系统上使用DQN

但问题是，这个问题的状态空间是时间不均匀的。不确定性

（与Atari比赛相比）

我找出了解决这个问题的两种方法

使状态转换成为确定性的
使用历史数据计算转移概率，使用概率转换状态

但......他们两个似乎没有意义

某人point out此类问题

如果我想建立一个基于强化学习的推荐系统

我应该从哪里开始？

0 个答案:

没有答案