CountVectorizer和Out-Of-Vocabulary(OOV)令牌?

时间:2016-10-25 03:25:12

标签: python scikit-learn

现在我正在使用CountVectorizer来提取功能。但是,我需要计算在拟合期间看不到的单词。

在转换过程中,CountVectorizer的默认行为是忽略在拟合期间未观察到的单词。但是我需要计算这次发生的次数!

我该怎么做?

谢谢!

1 个答案:

答案 0 :(得分:2)

在scikit中没有内置的方法 - 学习这样做,你需要编写一些额外的代码才能做到这一点。但是,您可以使用vocabulary_的{​​{1}}属性来实现此目的。

  1. 缓存当前词汇
  2. 致电fit_transform
  3. 使用新词汇和缓存词汇计算差异