应用错误收集

在文本挖掘中进行tf-idf和卡方运算后，我该怎么办？

时间：2019-03-19 00:11:57

标签： text tf-idf chi-squared mining

在数据挖掘中，有时我发现一个文档可以用多个相同的术语填充，例如，重复的单词被重复。

起初，我只是想通过svm测试卡方特征选择和分类的使用。

但是当我获得每个单词的卡方值时，我很困惑是否必须将此卡方权重乘以矩阵td以便重复的单词具有较大的权重。

还是我必须先制作tf-idf，然后再乘以每个单词中chi的平方的权重？

就我的关注点而言，我们获得的卡方是否正确，之后的算法是否将其乘以我们的矩阵项频率？那是正确的算法吗？

这是我的论文工作，嘿嘿：”）感谢您的分享

0 个答案:

没有答案