应用错误收集

如何评估预测概率的算法的有效性？

时间：2010-01-31 22:29:55

标签： statistics probability

我需要评估预测某事发生概率的算法的有效性。

我目前的做法是使用“均方根误差”，即。误差平均值的平方根，如果事件发生，误差 1.0-prediction ，如果事件没有发生，则预测。

算法没有特定的应用程序，但常见的是为每个选项中的每个选项提供事件预测，然后选择最大化此概率的选项。对我们的好处与预期概率最高的期权之间发生期望事件的比率成正比。

有人认为RMSE可能不是最佳选择，我对其他人的意见感兴趣。

4 个答案:

答案 0 :(得分：1)

chi-square test是一种广泛使用的分布适应度测试：

Σ（O _i - E _i）² / E _i

其中 O _i 是观察到的结果频率 i 和 E _i 是预期的频率。对于每种可能的结果，这种卡方检验需要最小的样本量（约5或10，取决于分布，特别是分布的degrees of freedom）。如果不满足样本量要求，则需要应用Yates的更正：

Σ（| O _i - E _i | - 0.5）² / E _i

免责声明：我不是统计学家。以上可能会错过一些更好的观点。我知道有一个很好的理由使用卡方比RMSE，但我不记得它是什么。

查找讨论hypothesis testing。

的网页

答案 1 :(得分：1)

看看ROC curves aka Receiver operating characteristics。

引用维基百科页面：

在信号检测理论中，一个接收器   工作特性（ROC），或   简单的ROC曲线，是一个图形图   灵敏度与（1 -   二元分类器的特异性）   系统作为其歧视阈值   多种多样。中华民国也可以   通过绘图等效地表示   真阳性的分数（TPR =   真阳性率）与分数   误报（FPR = false   积极率）。又称为   相对运行特性   曲线，因为它是一个比较   两个操作特性（TPR＆amp;   FPR）作为标准的变化。[1]

ROC分析提供了可供选择的工具   可能是最佳模型和丢弃   次优的，独立的   （并在指定之前）成本   上下文或类分布。鹏   分析是直接和   自然的成本/效益分析方法   诊断决策。中华民国   曲线最初是由   电气工程师和雷达   第二次世界大战期间的工程师   在战斗中探测敌方物体   字段，也称为信号   检测理论，很快   介绍心理学来解释   用于感知信号检测。   从那时起使用ROC分析   在医学，放射学和其他方面   几十年来的地区，它有   最近才被介绍过   其他领域如机器学习和   数据挖掘。

它实际上比听起来容易，并且比较容易 - “更好”的方法将在视觉上支配劣质方法的ROC曲线。

R有许多软件包。

答案 2 :(得分：0)

我不确定我理解你的问题，所以这个答案可能对你没用。

<强>问题：
如何测试用于计算系统处于给定状态的概率的算法是否针对实际概率进行测试。

据推测，这是一个系统，其中有一个或多个概率初始状态相互作用以产生最终状态，并且初始状态的分布是已知的。

在尝试估算科学计算计算中的误差时，这是一个问题。

<强>答案：
解决此问题的一种方法是使用所谓的Monte Carlo simulation。

为此，您可以根据初始概率分布选择分布的大量初始状态。对于每个初始状态，您可以计算系统的最终状态。通过查看最终状态的分布，您可以确定具有特定值的最终状态的可能性。

您现在可以将模拟结果与算法结果进行比较。

虽然上面的描述可能听起来很技术性，但这些在实践中很容易写。您可以在网上找到许多教程，但大多数使用蒙特卡罗技术来解决稍微不同的问题。

示例：

假设您正在查看正在投掷多个硬币的系统。你想知道总硬币中有两个被翻转的概率，两个结尾都是抬头。

您可以编写一种算法来预测这种可能性，选项是投掷的硬币数量。（当然有这种概率的精确计算。）

要进行模拟，首先要设置大量初始状态。在每个初始状态下，您可以随机选择每个硬币，无论是头部还是尾部。您现在计算其中两个硬币抬头的结果数量，并将其与预测值进行比较。

答案 3 :(得分：0)

听起来你正在预测某个值为0或1的结果，对吧？如果是这样，您可以查看离散选择建模的讨论。 “选择”一词不应过于字面意思。虽然大多数离散选择模型都是围绕解释人们每天所做的选择而设计的 - 购买这种产品或者那种，乘坐火车或者开车，乘坐一条路或者另一条路 - 相同的模型已成功应用于赛狗和赛马。

关于这个主题的关键文本是Ben-Akiva＆amp;勒曼和肯尼斯火车。同时查找“Logit模型”以获取有关指定和拟合这些统计模型的信息。