我正在做一些文本分类任务。我观察到的是,如果使用tfidf矩阵(来自sklearn的TfidfVectorizer
),Logistic回归模型总是优于MultinomialNB模型。以下是我的培训代码:
X = df_new['text_content']
y = df_new['label']
X_train, X_test, y_train, y_test = train_test_split(X, y)
vectorizer = TfidfVectorizer(stop_words='english')
X_train_dtm = vectorizer.fit_transform(X_train)
X_test_dtm = vectorizer.transform(X_test)
clf_lr = LogisticRegression()
clf_lr.fit(X_train_dtm, y_train)
y_pred = clf_lr.predict(X_test_dtm)
lr_score = accuracy_score(y_test, y_pred) # perfectly balanced binary classes
clf_mnb = MultinomialNB()
clf_mnb.fit(X_train_dtm, y_train)
y_pred = clf_mnb.predict(X_test_dtm)
mnb_score = accuracy_score(y_test, y_pred) # perfectly balanced binary classes
目前lr_score> mnb_score总是。我想知道MultinomialNB究竟是如何使用tfidf矩阵的,因为tfidf中的术语频率是基于没有类信息计算的。我不应该像对LogisticRegression那样将tfidf矩阵提供给MultinomialNB吗?
更新:我了解TfidfVectorizer
和CountVectorizer
的结果之间的区别。我还检查了sklearn的MultinomialNB.fit()函数的sources code,看起来它确实指望计数与频率相反。这也将解释我在下面的评论中提到的性能提升。但是,我仍然想知道在任何情况下是否将tfidf传递给MultinomialNB都是有道理的。 sklearn文档简要提到了可能性,但没有太多细节。
非常感谢任何建议!