scikit的cross_val_predict是否为每折重新计算tfidf?

时间:2018-08-10 20:26:30

标签: machine-learning scikit-learn cross-validation tf-idf

我已经训练过这样的分类器:

text_clf = Pipeline([('vect', CountVectorizer()),('tfidf', TfidfTransformer()),('clf', clf),])  

y_predicted=cross_validation.cross_val_predict(text_clf, X, y, cv=3, n_jobs=3, verbose=2)

由于我正在使用具有tfidf统计信息的管道对象,因此我想知道是针对每个折叠重新计算tfidf值,还是对整个数据集进行计算,并对每个折叠使用相同的值。

1 个答案:

答案 0 :(得分:0)

在交叉验证(CV)期间,每次折叠都会重新计算管道的

每个组件。相反(在整个数据集中计算tf-idf值,并在CV期间将其用于其余管道组件)将完全违反CV和管道的核心思想

  

文档中是否有提及,因为我找不到

实际上不是;关键是,即使在文档中,有些东西也被认为太基础而无法明确地提到