信息如何在文本分类中发挥作用

时间:2016-12-15 07:53:39

标签: text text-classification information-theory

我现在必须学习特征选择的信息增益, 但我对它没有清楚的理解。我是新手,我对此很困惑。

如何在特征选择(手动计算)中使用IG?

我只是想知道这个...有人可以帮我如何使用formula

enter image description here

然后这是示例example

enter image description here

2 个答案:

答案 0 :(得分:0)

  

如何在特征选择中使用信息增益?

信息增益(InfoGain(t))通过知道文档中是否存在术语(t)来测量为预测类(c)而获得的信息的位数。

简而言之,信息增益是衡量观察到特征值后类变量熵减少的指标。换句话说,分类的信息增益衡量一个特征在特定类中的常见程度,与其在所有其他类中的常见程度相比。

在文本分类中,功能表示文档中出现的术语(a.k.a语料库)。考虑一下语料库中的两个术语 - term1term2。如果term1正在将类变量的熵减少的值大于term2,那么term1对于此示例中的文档分类比term2更有用。

情绪分类背景下的示例

主要出现在正面电影评论中且很少出现负面评论的单词包含高信息。例如,电影评论中“华丽”一词的存在是评论是积极的强烈指标。这使得“华丽”成为一个信息丰富的词汇。

  

在python中计算熵和信息增益

答案 1 :(得分:0)

公式来自互信息,在这种情况下,您可以将互信息视为术语t的存在为我们猜测类提供了多少信息。

enter image description here

检查:https://nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html