应用错误收集

时间：2015-04-29 19:33:34

标签： artificial-intelligence probability utility

Richard Evans在GDC 2010上发表了关于模拟人生3 AI的演讲。他在演示幻灯片中详细描述了算法：

在幻灯片36中，他描述了他们如何将效用分数转换为AI用来随机选择要采取的动作的概率分布。

有人可以解释计算概率分布究竟是怎样的吗？我试图通过使用简化的Boltzmann方程计算幻灯片36上显示的概率，并从左侧的图表和幻灯片38的“温度”估计效用得分，但我无法获得与图表类似的结果显示在幻灯片36的右侧。

答案 0 :(得分：2)

幻灯片中使用的等式似乎不是Boltzmann distribution的简化版本，而是它的修改版本。

为了使这成为一个有效的概率，它需要进一步修改，因为所有概率应该在[0,1]范围内，而幻灯片中给出的概率公式可以评估为可以＆lt; ; 0和＆gt; 1，没有任何意义。正确的公式应该是：

p _i = max（ e ^{s _i / T} - 1,0）/ Z

其中 Z 定义为

Z = max（ e ^{s ₁ / < em> T} -1,0）+ max（ e ^{s _{2 < / sub> / T}} -1,0）+ ... + max（ e ^{s _N / T} -1,0）

和 s _i和 p _i分别是得分（效用？）和 i ：动作的概率。 N 是可能的操作数。