Question

我将首次与朴素贝叶斯进行文本分类。我在http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html上找到的这段代码：

>>> from sklearn.naive_bayes import MultinomialNB
>>> clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)

我想解决对传递给函数fit（）的参数X_train_tfidf，twenty_train.target的疑问。

X_train_tfidf是火车集中所有文档的tfidf矢量表示。

twenty_train.target是按确切顺序在X_train_tfidf集中显示的文档的相应标签。

我正确吗？

Answer 1

简短回答：是

长答案：对于使用API会找到的每种 fit 方法，都是如此。给定文档尺寸为[m，n]的文档 X 的矩阵，目标矢量Y 将具有尺寸[n，1]和文档X [:, j]从0到n-1的每个j匹配目标Y [j] 。

如果文档和目标不匹配，您的培训过程可能会导致非常糟糕和不合理的结果。