应用错误收集

最近策略优化算法论文-“ KL”操作的定义？

时间：2019-12-07 06:40:46

标签： machine-learning reinforcement-learning

在有关近端策略优化算法的原始论文中

https://arxiv.org/pdf/1707.06347.pdf

在等式（4）中，作者使用KL[]表示的运算。不幸的是，他们从未对此做出定义。

我的问题：

KL[]操作代表什么？

1 个答案:

答案 0 :(得分：2)

也许是KL divergence？

KL散度用于比较两个概率分布之间的差异。