应用错误收集

PPO是edTech领域中此类RL应用程序的非常常用的技术。您可以从此article中获得很多启发。他们使用RLgraph软件包和PPO算法。

您首先必须定义您的目标/奖励功能。在您的情况下，我将奖励函数定义为与正确回答的先前问题的百分比有关。如果此百分比为0％或100％，则奖励较低（太难/容易）。如果接近50％，您可能会选择较高的奖励。

这样，算法将转向获得50％正确性（中等难度）的问题。您可以使用范围（最近2个q或最近10个q）玩。

作为状态空间，您还可以包含正确回答的问题，例如年龄等特征，以在用户未使用过多算法时帮助其启动算法。

作为操作空间，您可以提出所有问题。您还可以根据自己的直觉将问题（例如，困难/容易或几何/代数）进行聚类，并使聚类动作，以减少动作空间。