贝叶斯分类器得分代表什么?

时间:2011-02-04 03:04:59

标签: ruby bayesian bayesian-networks

我正在使用ruby classifier gem,其分类方法返回针对训练模型分类的给定字符串的分数。

得分是百分比吗?如果是这样,最大差异是100分吗?

2 个答案:

答案 0 :(得分:5)

概率的对数。使用大量训练集,实际概率是非常小的数字,因此对数更容易比较。从理论上讲,分数范围从无穷小接近零到负无穷大。 10**score * 100.0将为您提供实际概率,实际上最大差异为100。

答案 1 :(得分:3)

实际上,为了计算典型的朴素贝叶斯分类器的概率,其中b是基础,它是b ^得分/(1 + b ^得分)。这是反向logit(http://en.wikipedia.org/wiki/Logit)但是,考虑到NBC的独立性假设,这些得分往往过高或过低,以这种方式计算的概率将在边界累积。最好计算一组数据中的得分,并对得分的准确(1或0)进行逻辑回归,以更好地了解得分和概率之间的关系。

来自Jason Rennie的论文: 2.7朴素贝叶斯输出通常是过度的  文本数据库经常有 10,000到100,000个不同的词汇单词;文件通常包含100或更多 条款。因此,重复的机会很大。 为了了解有多少重复,我们训练了一个MAP Naive Bayes 模型包含20个新闻组文档中的80%。我们制作了p(cjd; D)(后验) 其余20%数据的值,并显示maxc p(cjd; D)中的统计数据 表2.3。价值观高度过分。分配了60%的测试文档 四舍五入为9位小数后的后验为1。与逻辑回归不同,朴素 贝叶斯未经优化以产生合理的概率值。逻辑回归 执行线性系数的联合优化,收敛到适当的 具有足够训练数据的概率值。朴素贝叶斯优化了系数 一个接一个。只有在独立性假设时才能产生真实的输出 是的。当功能包括重要的重复信息时(通常是这样) 在案例中,Naive Bayes提供的后验非常过分。