应用错误收集

如何计算给定一组文本的单词的信息增益？

时间：2017-03-22 17:39:12

标签： python machine-learning

给定包含短语的数据库

示例：

检查工作缓慢
工作壁纸
工作需要回复通知工作组

我需要计算每个不同单词的信息增益。

IG（ '工作'）
IG（ '检查'）
....

我研究了熵和信息增益的概念，但我不确定如何在短语中应用它。我看到了这个链接：https://mariuszprzydatek.com/2014/10/31/measuring-entropy-data-disorder-and-information-gain/ 但在我的情况下，我没有短语类别。我需要知道哪些词只有短语才能获得最大的信息。

1 个答案:

答案 0 :(得分：0)

搜索 tf-idf 一词。
阅读此问题，您的术语文本 == 文档。

interpreting-the-sum-of-tf-idf-scores-of-words-across-documents