我现在必须学习特征选择的信息增益, 但我对它没有清楚的理解。我是新手,我对此很困惑。
如何在特征选择(手动计算)中使用IG?
我只是想知道这个...有人可以帮我如何使用formula
然后这是示例example
答案 0 :(得分:0)
如何在特征选择中使用信息增益?
信息增益(InfoGain(t)
)通过知道文档中是否存在术语(t)来测量为预测类(c)而获得的信息的位数。
简而言之,信息增益是衡量观察到特征值后类变量熵减少的指标。换句话说,分类的信息增益衡量一个特征在特定类中的常见程度,与其在所有其他类中的常见程度相比。
在文本分类中,功能表示文档中出现的术语(a.k.a语料库)。考虑一下语料库中的两个术语 - term1
和term2
。如果term1
正在将类变量的熵减少的值大于term2
,那么term1
对于此示例中的文档分类比term2
更有用。
情绪分类背景下的示例
主要出现在正面电影评论中且很少出现负面评论的单词包含高信息。例如,电影评论中“华丽”一词的存在是评论是积极的强烈指标。这使得“华丽”成为一个信息丰富的词汇。
在python中计算熵和信息增益
答案 1 :(得分:0)
公式来自互信息,在这种情况下,您可以将互信息视为术语t的存在为我们猜测类提供了多少信息。
检查:https://nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html