如何在scikit TfidfVectorizer中给予专有名词更多的权重

时间:2017-06-18 14:32:56

标签: python machine-learning scikit-learn nlp nltk

我正在使用sci-kit的{​​{1}}从科学文章列表中提取关键字。有一个关于stop_words的论据,但我想知道我是否可以给“Bohr”或“Japan”等专有名词赋予更多的权重/分数。

我是否必须实施自己的自定义TdidfVectorizer或者我仍然可以使用内置的自定义内容吗?

tfidf vectorizer

1 个答案:

答案 0 :(得分:3)

您可以为TfIdf矩阵进行自己的后处理。

首先,您需要查看所有单词索引以查找所有专有名词的索引,然后查看矩阵并增加这些索引的权重。