应用错误收集

在情感分析中如何确定哪些单词具有较高的预测能力？

时间：2019-06-20 13:32:54

标签： twitter nlp sentiment-analysis tf-idf feature-selection

我正在处理高音数据的分类问题。用户标记的推文（相关，不相关）用于训练机器学习分类器，以预测看不见的推文是否与用户相关。

我使用简单的预处理技术（例如去除停用词，词干等）和sklearn Tfidfvectorizer将单词转换为数字，然后再将其输入到分类器中。 SVM，内核SVM，朴素贝叶斯。

我想确定哪些单词（特征）具有较高的预测能力。最好的方法是什么？

我尝试过wordcloud，但是它只显示示例中出现频率最高的单词。

更新：

以下方法以及sklearns feature_selection似乎为我的问题提供了最佳答案：

top features还有其他建议吗？

1 个答案:

答案 0 :(得分：1)

您是否尝试过使用tfidf？它创建了一个加权矩阵，为每个文本的语义上更有意义的单词提供更大的权重。它将单个文本（在这种情况下为tweet）与所有文本（所有tweet）进行比较。这比使用原始术语计数进行分类和其他任务要有用得多。 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html