机器学习 - 分类算法

时间:2012-02-23 23:30:04

标签: statistics machine-learning classification prediction

我想找到以下概率:

P(y=1/n=k; thetha) 

读作:

  

概率,预测是1级给定的单词数= k,由thetha

参数化

传统分类没有条件概率(右)

P(y = 1; thetha) 

我该如何解决这个问题?

修改

例如,假设我想根据附件数预测电子邮件是否为垃圾邮件。 让y=1表示垃圾邮件,y=0表示非垃圾邮件。

所以,

P(y = 1/num_attachements=0; some attributes)
and so on!!

它有意义吗?

2 个答案:

答案 0 :(得分:1)

使用Naive Baisean分类器。你可以很快自己编写一个代码,或者使用/查看nltk库。

答案 1 :(得分:1)

通常,附件数量只是另一个属性,因此您的概率与

相同
P(y = 1 | all attributes)

但是,如果您对附件有一些特殊处理(比如,其他属性是数字,附件是布尔值),您可以单独计算它们,然后合并为:

P(C|A, B) = P(C|A) * P(C|B) / P(C)

其中C代表事件y = 1A代表附件,B代表其他属性。

有关几种Nave Bayes分类器的说明,请参阅this paper