我将首次与朴素贝叶斯进行文本分类。 我在http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html上找到的这段代码:
>>> from sklearn.naive_bayes import MultinomialNB
>>> clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)
我想解决对传递给函数fit()的参数X_train_tfidf
,twenty_train.target
的疑问。
X_train_tfidf是火车集中所有文档的tfidf矢量表示。
twenty_train.target是按确切顺序在X_train_tfidf集中显示的文档的相应标签。
我正确吗?
答案 0 :(得分:1)
简短回答:是
长答案:对于使用API会找到的每种 fit 方法,都是如此。给定文档尺寸为[m,n]的文档 X 的矩阵,目标矢量Y 将具有尺寸[n,1]和文档X [:, j]从0到n-1的每个j匹配目标Y [j] 。
如果文档和目标不匹配,您的培训过程可能会导致非常糟糕和不合理的结果。