我想找到以下概率:
P(y=1/n=k; thetha)
读作:
概率,预测是1级给定的单词数= k,由thetha
参数化
传统分类没有条件概率(右)
P(y = 1; thetha)
我该如何解决这个问题?
修改
例如,假设我想根据附件数预测电子邮件是否为垃圾邮件。
让y=1
表示垃圾邮件,y=0
表示非垃圾邮件。
所以,
P(y = 1/num_attachements=0; some attributes)
and so on!!
它有意义吗?
答案 0 :(得分:1)
使用Naive Baisean分类器。你可以很快自己编写一个代码,或者使用/查看nltk库。
答案 1 :(得分:1)
通常,附件数量只是另一个属性,因此您的概率与
相同P(y = 1 | all attributes)
但是,如果您对附件有一些特殊处理(比如,其他属性是数字,附件是布尔值),您可以单独计算它们,然后合并为:
P(C|A, B) = P(C|A) * P(C|B) / P(C)
其中C
代表事件y = 1
,A
代表附件,B
代表其他属性。
有关几种Nave Bayes分类器的说明,请参阅this paper。