MAXent分类器NLTK输出了解

时间:2013-04-28 19:26:23

标签: python machine-learning nltk text-classification

我正在尝试理解MAXent分类器的classifier.show_most_informative_features(10)。我不明白列的内容,例如在以下输出中:

train on 460 instances, test on 154 instances accuracy: 0.61038961039 
pos precision: 0.432989690722 
pos recall: 0.893617021277 
neg precision: 0.912280701754 
neg recall: 0.485981308411    
-4.141 need==True and label is 'REL'    
3.395 approves==True and label is 'IRREL'   -
3.308 took==True and label is 'IRREL' 
-1.766 treat==True and label is 'REL' 
-1.488 tired==True and label is 'IRREL' 
-1.295 gave==True and label is 'IRREL' 
0.879 need==True and label is 'IRREL' 

1 个答案:

答案 0 :(得分:1)

您似乎有两个标签"RELEVANT""IRRELEVANT"。当有两个标签时,一个通常命名为“1”或正面,另一个标记为“-1”或负面。

在训练过程中,分类器分析了460个训练实例的特征,并根据它们区分两个标签的能力对它们进行加权。加权过程的细节取决于您选择的算法。

极高精度:在测试过程中被分类为标签1的154个测试实例中,有43%确实有标签1.

积极召回:发现测试集中89%的标签1个实例,即归类为标签1.

负精确度/负召回是相同的,但对于标签-1。

准确度: 154个测试实例中有61%被正确标记。

根据特征的绝对值对特征进行排序,这与其与分类的相关性相对应。在这种情况下,最“有用”的功能是 need ,如果是真的,这是一个非常好的暗示,实例的标签应该是“RELEVANT”。