Question

我已经训练过这样的分类器：

text_clf = Pipeline([('vect', CountVectorizer()),('tfidf', TfidfTransformer()),('clf', clf),])  

y_predicted=cross_validation.cross_val_predict(text_clf, X, y, cv=3, n_jobs=3, verbose=2)

由于我正在使用具有tfidf统计信息的管道对象，因此我想知道是针对每个折叠重新计算tfidf值，还是对整个数据集进行计算，并对每个折叠使用相同的值。

Answer 1

在交叉验证（CV）期间，每次折叠都会重新计算管道的

每个组件。相反（在整个数据集中计算tf-idf值，并在CV期间将其用于其余管道组件）将完全违反CV和管道的核心思想。

文档中是否有提及，因为我找不到

实际上不是；关键是，即使在文档中，有些东西也被认为太基础而无法明确地提到。

scikit的cross_val_predict是否为每折重新计算tfidf？

1 个答案: