应用错误收集

如何获得垃圾邮件的概率而不是分类

时间：2012-11-26 05:43:33

标签： machine-learning

我正在构建一个工具来计算文本评论是假的（垃圾邮件）或真实的概率。

我有一个标注为垃圾邮件或非垃圾邮件的注释数据集。我已经使用svm来构建分类器，但这只会让我将输入文档分类为垃圾邮件或非垃圾邮件。然而，我想要一个工具，它会给我一个0到1之间的数字，代表文件被垃圾邮件的概率。有人可以指出我正确的方向。

3 个答案:

答案 0 :(得分：1)

如果您需要连续值得分（而不是显式概率），则可以使用距SVM的超平面距离。这是一种信心的标准衡量标准，你可以看到这一点与该课程的“进入”有多远。

如果您想要将分类实际用作更广泛的概率模型的一部分，在那里您需要具有真实概率解释的东西，您可以使用其中一种方法将SVM分数转换为概率，但这些方法在某种程度上是改进的没有很好的理论基础。相反，我建议您查看logistic regression classifier，有时也称为最大熵，以获得强大的概率替代方案。这具有像SVM这样的判别模型的好处，但具有自然和固有的概率基础。

答案 1 :(得分：0)

为什么不插入akismet而不是自己编写？垃圾邮件检测是贝叶斯检测，并且您提供的数据越多，效果越好。

答案 2 :(得分：0)

您可以通过SVM获得概率。看看libsvm（-b参数）。