应用错误收集

时间：2013-01-16 16:40:41

标签： machine-learning classification scikit-learn document-classification

我正在进行文本分类，并将处理未在我的训练数据中捕获的单词，这意味着该单词应被视为未知。

有没有人知道如果训练数据中不存在scikit的交叉验证是否会将某个特定单词视为不可见？

或者scikit会将所有单词视为功能，即使它不在训练集中吗？

答案 0 :(得分：3)

如果你在包装特征提取器（例如CountVectorizer或TfidfVectorizer）和分类器的管道上进行交叉验证，那么一切都将自动开箱即用：仅在~~列车中出现的功能~~ 测试设置将被忽略（未映射到矢量表示中的维度）。

有关vocabulary_属性如何用于将要素名称映射到documentation on text feature extraction中的维度的详细信息。

编辑：固定列车/测试错误

编辑2 ：修复了断开链接的示例。