如何计算给定一组文本的单词的信息增益?

时间:2017-03-22 17:39:12

标签: python machine-learning

给定包含短语的数据库

示例:

  1. 检查工作缓慢

  2. 工作壁纸

  3. 工作需要回复通知工作组

  4. 我需要计算每个不同单词的信息增益。

    1. IG( '工作')
    2. IG( '检查')
    3. ....
    4. 我研究了熵和信息增益的概念,但我不确定如何在短语中应用它。 我看到了这个链接:https://mariuszprzydatek.com/2014/10/31/measuring-entropy-data-disorder-and-information-gain/ 但在我的情况下,我没有短语类别。 我需要知道哪些词只有短语才能获得最大的信息。

1 个答案:

答案 0 :(得分:0)

搜索 tf-idf 一词。
阅读此问题,您的术语文本 == 文档

interpreting-the-sum-of-tf-idf-scores-of-words-across-documents