应用错误收集

强化学习的目的通常是为玩游戏的代理人（马尔可夫决策过程）最大化长期奖励。在典型的强化学习用法中，神经网络用于近似Q函数。因此，网络的输入是状态和动作（或其特征表示），并且输出是在该状态下采取该动作的值。强化学习算法（如Q-learning）提供了有关如何在给定时间步骤选择操作的详细信息，还规定了如何对值函数进行更新。

目前尚不清楚如何将构建客户流失模型的具体目标制定为马尔可夫决策问题。您可以将州定义为有关客户的统计数据。与公司网站的互动，但不清楚行动可能是什么，因为它不清楚代理是什么以及它可以做什么。这也是您发现难以定义奖励功能的原因。奖励功能应该告诉代理人它是否做得很好。因此，如果我们想象一个代理商试图最大限度地减少客户流失的MDP，我们可能会提供与转换客户数量成比例的负面回报。

我认为你不想学习Q功能。我认为你更有可能只是对监督学习感兴趣 ，你有一些样本数据，你想学习一个功能，告诉你将有多少流失。为此，您应该考虑使用梯度下降方法和前向/后向传播来训练您的神经网络。

什么是通过强化学习来学习权重的神经网络中的动作和奖励

1 个答案: