我已经训练过这样的分类器:
text_clf = Pipeline([('vect', CountVectorizer()),('tfidf', TfidfTransformer()),('clf', clf),])
y_predicted=cross_validation.cross_val_predict(text_clf, X, y, cv=3, n_jobs=3, verbose=2)
由于我正在使用具有tfidf统计信息的管道对象,因此我想知道是针对每个折叠重新计算tfidf值,还是对整个数据集进行计算,并对每个折叠使用相同的值。
答案 0 :(得分:0)
每个组件。相反(在整个数据集中计算tf-idf值,并在CV期间将其用于其余管道组件)将完全违反CV和管道的核心思想。
文档中是否有提及,因为我找不到
实际上不是;关键是,即使在文档中,有些东西也被认为太基础而无法明确地提到。