如何用朴素贝叶斯实现TF_IDF特征加权

时间:2011-06-09 10:42:51

标签: bayesian sentiment-analysis document-classification tf-idf

我正在尝试实施朴素贝叶斯分类器以进行情绪分析。我计划使用TF-IDF加权测量。我现在只是有点卡住了。 NB通常使用单词(特征)频率来找到最大似然。那么如何在天真的贝叶斯中引入TF-IDF加权度量呢?

2 个答案:

答案 0 :(得分:2)

您在统计模型中使用TF-IDF权重作为要素/预测变量。我建议使用gensim [1]或scikit-learn [2]计算权重,然后将其传递给你的Naive Bayes拟合程序。

scikit-learn'使用文本'教程[3]也可能是有意义的。

[1] http://scikit-learn.org/dev/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html

[2] http://radimrehurek.com/gensim/models/tfidfmodel.html

[3] http://scikit-learn.github.io/scikit-learn-tutorial/working_with_text_data.html

答案 1 :(得分:-6)

您可以详细访问the following blog节目,了解如何计算TFIDF。