比方说,我们有一种算法可以给定数据集点,然后对其进行一些分析并返回结果。该算法具有用户定义的参数X,该参数会影响算法的运行时间(对于相同的输入点,算法的结果始终是恒定的)。另外,我们已经知道数据集点和参数X之间存在关系。例如,如果两个数据集点彼此靠近,则它们的参数X也将相同。
我们可以说在此示例中我们具有以下内容,从而可以使用Q-Learning在给定任何数据集点的情况下找到最佳参数X吗?
如果我们将不同的输入数据集点定义为情节,并将不同的X值定义为每个情节中的步骤(在每个步骤中,是随机选择还是通过网络选择一个动作),是否正确?在这种情况下,神经网络的输入是什么?
由于到目前为止我已经看到的所有示例和实现都包含几个状态,其中每个状态都依赖于前一个状态,因此我对只有两个状态的情况感到困惑。