使用scikit-learn

时间:2016-11-07 11:03:15

标签: python scikit-learn nlp sentiment-analysis text-analysis

哪个特征提取器(Countvectorizer,TfIdf)最适合推文的情绪分析? 有人可以解释每个与不同分类器最相关的区别。

我计划使用3种不同的分类器 - 朴素贝叶斯,SVM和MaxEnt

1 个答案:

答案 0 :(得分:1)

您可以尝试使用SelectKBest方法为情绪分析选择最重要的k信息。这存在于Python的scikit-learn库中。 http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html

您可以将其导入为:

from sklearn.feature_selection import SelectKBest, chi2, f_classif

阅读完文档后,您可以尝试使用'chi2'和'f-classif'分数进行特征提取。 SelectKBest是一种选择特征的好方法,因为它选择与输出变量关联最强的特征。您可以不断更改k的值来进行实验,并查看k的哪个值可以获得最佳效果。