我想将文件(由单词组成)分为3类(正面,负面,未知/中性)。文档单词的子集成为特征。
到目前为止,我已经编写了朴素贝叶斯分类器作为特征选择器使用信息增益和卡方统计。现在,我想看看如果我使用优势比作为特征选择器会发生什么。
我的问题是我不知道实施优势比率的热点。我应该:
1)计算每个单词w,每个类的比值比: 例如。对于w:
Prob of word as positive Pw,p = #positive docs with w/#docs
Prob of word as negative Pw,n = #negative docs with w/#docs
Prob of word as unknown Pw,u = #unknown docs with w/#docs
OR(Wi,P) = log( Pw,p*(1-Pw,p) / (Pw,n + Pw,u)*(1-(Pw,n + Pw,u)) )
OR(Wi,N) ...
OR(Wi,U) ...
2)我应该如何决定是否选择这个单词?
提前致谢...
答案 0 :(得分:2)
奇数比率不是衡量特征选择的好方法,因为它只显示特征存在时会发生什么,而不显示。因此它不适用于罕见功能,几乎所有功能都很少见,因此它几乎不适用于所有功能。具有100%置信度,该类为正的示例特征在0.0001中存在对于分类是无用的。因此,如果您仍然希望在特征频率上使用奇数比率添加阈值,就像5%的情况中存在的特征一样。但我会建议更好的方法 - 使用智能或信息增益指标自动解决这些问题。
答案 1 :(得分:2)
由于我花了一段时间独立地围绕这一切,让我在这里解释我的发现,为了人类的利益。
使用(log)优势比是在文本分类之前过滤特征的标准技术。这是一个“单侧度量”[Zheng et al。,2004],因为它只发现与特定类正相关的特征。作为给定类'c'的特征't'的概率的对数优势比,它被定义为:
LOR(t,c) = log [Pr(t|c) / (1 - Pr(t|c))] : [Pr(t|!c) / (1 - Pr(t|!c))]
= log [Pr(t|c) (1 - Pr(t|!c))] / [Pr(t|!c) (1 - Pr(t|c))]
这里我使用'!c'来表示类不 c的文档。
但是你怎么实际计算Pr(t | c)和Pr(t |!c)?
需要注意的一个细微之处在于,通常,特征选择概率通过文档事件模型定义 [McCallum& Nigam 1998,Manning等。 2008],即,Pr(t | c)是在文档的类是c的情况下在文档中看到术语t 一次或多次的概率(换句话说,给出了t的存在) c)类。该概率的最大似然估计(MLE)将是包含t至少一次的c类文档的比例。 [从技术上讲,这被称为多变量伯努利事件模型,不同于单项上的多项式事件模型,它将使用整数字计数来计算Pr(t | c) - 有关详细信息,请参阅McCallum论文或Manning IR教科书,特别是如何应用于朴素贝叶斯文本分类器。]
有效使用LOR的一个关键是平滑这些条件概率估计,因为正如@yura所指出的,稀有事件在这里是有问题的(例如,Pr(t |!c)的MLE可以为零,导致无限LOR)。但我们如何顺利?
在文献中,Forman报告通过“在分母中为任何零计数加1”来平滑LOR(Forman,2003),而Zheng等(2004)使用“ELE [预期似然估计]平滑”,这通常是金额为每个计数增加0.5。
为了以与概率论一致的方式进行平滑,我遵循使用多变量伯努利事件模型的文本分类中的标准实践。基本上,我们假设我们已经看到每个存在计数和每个缺席计数B额外的时间。所以我们对Pr(t | c)的估计可以写成#(t,c):我们看过t和c的次数,以及#(t,!c):我们的次数我看到没有c,如下:
Pr(t|c) = [#(t,c) + B] / [#(t,c) + #(t,!c) + 2B]
= [#(t,c) + B] / [#(c) + 2B]
如果B = 0
,我们有MLE。如果B = 0.5
,我们有ELE。如果B = 1
,我们有拉普拉斯先验。注意这看起来与Multinomial事件模型的平滑不同,其中拉普拉斯事件先验引导您添加| V |在分母[麦卡勒姆& Nigam,1998]
您可以选择0.5
或1
作为平滑值,具体取决于您最常激发的工作,并将其插入上面LOR(t,c)
的等式中,并对所有要素进行评分
通常,您可以决定要使用的功能数量,例如N,然后根据分数选择N个排名最高的功能。
在多级设置中,人们经常使用1对所有分类器,因此为每个分类器独立地进行特征选择,因此每个正类都具有单侧度量(Forman,2003)。但是,如果您想找到一个在多类设置中工作的独特简化功能集,那么文献中有一些高级方法(例如Chapelle& Keerthi,2008)。
参考文献:
Zheng,Wu,Srihari,2004
McCallum& Nigam 1998
Manning,Raghavan& Schütze,2008年
Forman,2003
Chapelle& Keerthi,2008年