ngram矢量化 - 如果在语料库中找不到新的令牌,我应该怎么做

时间:2016-10-20 13:38:09

标签: nlp vectorization dictvectorizer

我正在为单词模型包构建自定义ngram矢量化器。我很谨慎 - 如果在短文本的矢量化过程中我找到了新的令牌,我应该怎么办,这在语料库词汇表中不存在。应该跳过它还是什么?

1 个答案:

答案 0 :(得分:2)

您可以跳过它,也可以在词汇表中为未知单词添加特殊标记,例如:之前看不见的单词会被"UNK"替换,然后您可以将它们计算为与任何其他单词相同的单词。另外,为了解决训练数据中没有任何UNK的问题,您可以用UNK替换仅在语料库中出现一次的所有单词。