标签: text tf-idf chi-squared mining
在数据挖掘中,有时我发现一个文档可以用多个相同的术语填充,例如,重复的单词被重复。
起初,我只是想通过svm测试卡方特征选择和分类的使用。
但是当我获得每个单词的卡方值时,我很困惑是否必须将此卡方权重乘以矩阵td以便重复的单词具有较大的权重。
还是我必须先制作tf-idf,然后再乘以每个单词中chi的平方的权重?
就我的关注点而言,我们获得的卡方是否正确,之后的算法是否将其乘以我们的矩阵项频率?那是正确的算法吗?
这是我的论文工作,嘿嘿:”)感谢您的分享