给定包含短语的数据库
示例:
检查工作缓慢
工作壁纸
工作需要回复通知工作组
我需要计算每个不同单词的信息增益。
我研究了熵和信息增益的概念,但我不确定如何在短语中应用它。 我看到了这个链接:https://mariuszprzydatek.com/2014/10/31/measuring-entropy-data-disorder-and-information-gain/ 但在我的情况下,我没有短语类别。 我需要知道哪些词只有短语才能获得最大的信息。
答案 0 :(得分:0)
搜索 tf-idf 一词。
阅读此问题,您的术语文本 == 文档。
interpreting-the-sum-of-tf-idf-scores-of-words-across-documents