我正在进行文本分类,并将处理未在我的训练数据中捕获的单词,这意味着该单词应被视为未知。
有没有人知道如果训练数据中不存在scikit的交叉验证是否会将某个特定单词视为不可见?
或者scikit会将所有单词视为功能,即使它不在训练集中吗?
答案 0 :(得分:3)
如果你在包装特征提取器(例如CountVectorizer或TfidfVectorizer)和分类器的管道上进行交叉验证,那么一切都将自动开箱即用:仅在列车中出现的功能 测试设置将被忽略(未映射到矢量表示中的维度)。
有关vocabulary_
属性如何用于将要素名称映射到documentation on text feature extraction中的维度的详细信息。
还有一个示例显示how to cross validate a pipeline that comprise a feature extraction component and a classifier。
编辑:固定列车/测试错误
编辑2 :修复了断开链接的示例。