我正在构建一个工具来计算文本评论是假的(垃圾邮件)或真实的概率。
我有一个标注为垃圾邮件或非垃圾邮件的注释数据集。我已经使用svm来构建分类器,但这只会让我将输入文档分类为垃圾邮件或非垃圾邮件。然而,我想要一个工具,它会给我一个0到1之间的数字,代表文件被垃圾邮件的概率。有人可以指出我正确的方向。
答案 0 :(得分:1)
如果您需要连续值得分(而不是显式概率),则可以使用距SVM的超平面距离。这是一种信心的标准衡量标准,你可以看到这一点与该课程的“进入”有多远。
如果您想要将分类实际用作更广泛的概率模型的一部分,在那里您需要具有真实概率解释的东西,您可以使用其中一种方法将SVM分数转换为概率,但这些方法在某种程度上是改进的没有很好的理论基础。相反,我建议您查看logistic regression classifier,有时也称为最大熵,以获得强大的概率替代方案。这具有像SVM这样的判别模型的好处,但具有自然和固有的概率基础。
答案 1 :(得分:0)
为什么不插入akismet而不是自己编写?垃圾邮件检测是贝叶斯检测,并且您提供的数据越多,效果越好。
答案 2 :(得分:0)
您可以通过SVM获得概率。看看libsvm(-b参数)。