Q学习在这里适用吗?

时间:2020-05-04 09:45:06

标签: machine-learning reinforcement-learning q-learning

比方说,我们有一种算法可以给定数据集点,然后对其进行一些分析并返回结果。该算法具有用户定义的参数X,该参数会影响算法的运行时间(对于相同的输入点,算法的结果始终是恒定的)。另外,我们已经知道数据集点和参数X之间存在关系。例如,如果两个数据集点彼此靠近,则它们的参数X也将相同。

我们可以说在此示例中我们具有以下内容,从而可以使用Q-Learning在给定任何数据集点的情况下找到最佳参数X吗?

  • 初始状态:数据集点,X的当前值(初始状态= 0)
  • 终端状态:数据集点,X的当前值(基于操作选择的值)
  • 操作:X可以具有不同的值
  • 奖励:如果执行时间减少,则为-1;如果执行时间减少,则为+1;如果保持不变,则为0。

如果我们将不同的输入数据集点定义为情节,并将不同的X值定义为每个情节中的步骤(在每个步骤中,是随机选择还是通过网络选择一个动作),是否正确?在这种情况下,神经网络的输入是什么?

由于到目前为止我已经看到的所有示例和实现都包含几个状态,其中每个状态都依赖于前一个状态,因此我对只有两个状态的情况感到困惑。

0 个答案:

没有答案