SKLearn交叉验证:

时间:2013-01-16 16:40:41

标签: machine-learning classification scikit-learn document-classification

我正在进行文本分类,并将处理未在我的训练数据中捕获的单词,这意味着该单词应被视为未知。

有没有人知道如果训练数据中不存在scikit的交叉验证是否会将某个特定单词视为不可见?

或者scikit会将所有单词视为功能,即使它不在训练集中吗?

1 个答案:

答案 0 :(得分:3)

如果你在包装特征提取器(例如CountVectorizer或TfidfVectorizer)和分类器的管道上进行交叉验证,那么一切都将自动开箱即用:仅在列车中出现的功能 测试设置将被忽略(未映射到矢量表示中的维度)。

有关vocabulary_属性如何用于将要素名称映射到documentation on text feature extraction中的维度的详细信息。

还有一个示例显示how to cross validate a pipeline that comprise a feature extraction component and a classifier

编辑:固定列车/测试错误

编辑2 :修复了断开链接的示例。