鉴于贝叶斯公式为:
P(A|B) = (P(B|A) * P(A)) / P(B)
让我们说我想训练一个分类器来分类垃圾邮件/火腿。还可以说,在现实世界中,我们得到大约1%的垃圾邮件。因此,如果提供样本输入,我们预计会有大约1%的垃圾邮件。
当我训练我的分类器时,我是否应该使用仅包含1%垃圾邮件的文档进行训练,或者是否可以使用更大比例的垃圾邮件训练我的分类器,那么我希望在现实世界中找到它。 / p>
我问这个,因为如果我有更大比例的垃圾邮件,那么
的值P(A)
将会异常大。这会摒弃我的分类器吗?在这种情况下,它会对一些" ham"进行分类。文件为"垃圾邮件"?
答案 0 :(得分:0)
要训练贝叶斯估计,你需要学习PDF P(X | H)和P(X | S),其中X是你当前的观察,H,S代表垃圾邮件/火腿类,每个只训练来自其类的例子,即P(X | H)仅从火腿样本中学习,而P(X | S)仅从垃圾邮件样本中学习。如果垃圾邮件与火腿样本的数量反映现实,那么这一点并不重要。然而,稍后,要进行适当的贝叶斯估计,您需要估计先验P(H)和P(S),并且那些应该捕获现实垃圾/火腿的比例。