标签: text classification
我正在使用决策树进行文本分类,决策树使用信息增益作为文本文档分类的主要值。我已经通过TF * IDF值提取了一些功能。但我无法弄清楚应该如何计算信息增益?有一些文章暗示了这一点,但没有一个非常清楚如何将它应用于文本文件。
答案 0 :(得分:0)
您可以使用 weka 来计算信息增益。在weka InfoGainAttributeEval.java 课程将根据文件计算单词的IG。check this answer这可能会对你有帮助。
InfoGainAttributeEval.java