文本分类+朴素贝叶斯+ Scikit学习

时间:2018-09-25 13:20:06

标签: scikit-learn text-classification naivebayes

我将首次与朴素贝叶斯进行文本分类。 我在http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html上找到的这段代码:

>>> from sklearn.naive_bayes import MultinomialNB
>>> clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)

我想解决对传递给函数fit()的参数X_train_tfidftwenty_train.target的疑问。

X_train_tfidf是火车集中所有文档的tfidf矢量表示。

twenty_train.target是按确切顺序在X_train_tfidf集中显示的文档的相应标签。

我正确吗?

1 个答案:

答案 0 :(得分:1)

简短回答:是

长答案:对于使用API​​会找到的每种 fit 方法,都是如此。给定文档尺寸为[m,n]的文档 X 矩阵,目标矢量Y 将具有尺寸[n,1]和文档X [:, j]从0到n-1的每个j匹配目标Y [j]

如果文档和目标不匹配,您的培训过程可能会导致非常糟糕和不合理的结果。