标签: reinforcement-learning
推荐系统正在实时运行。它可以建议x,y,z的3个产品。但是对于今天的数据,它始终无时无刻不在分发乘积x。必须调整的内容。关于强化学习有什么解决方案吗?