我正在处理高音数据的分类问题。用户标记的推文(相关,不相关)用于训练机器学习分类器,以预测看不见的推文是否与用户相关。
我使用简单的预处理技术(例如去除停用词,词干等)和sklearn Tfidfvectorizer将单词转换为数字,然后再将其输入到分类器中。 SVM,内核SVM,朴素贝叶斯。
我想确定哪些单词(特征)具有较高的预测能力。最好的方法是什么?
我尝试过wordcloud,但是它只显示示例中出现频率最高的单词。
更新:
以下方法以及sklearns feature_selection似乎为我的问题提供了最佳答案:
top features还有其他建议吗?
答案 0 :(得分:1)
您是否尝试过使用tfidf?它创建了一个加权矩阵,为每个文本的语义上更有意义的单词提供更大的权重。它将单个文本(在这种情况下为tweet)与所有文本(所有tweet)进行比较。这比使用原始术语计数进行分类和其他任务要有用得多。 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html