我正在使用sci-kit
的{{1}}从科学文章列表中提取关键字。有一个关于stop_words的论据,但我想知道我是否可以给“Bohr”或“Japan”等专有名词赋予更多的权重/分数。
我是否必须实施自己的自定义TdidfVectorizer
或者我仍然可以使用内置的自定义内容吗?
tfidf vectorizer
答案 0 :(得分:3)
您可以为TfIdf矩阵进行自己的后处理。
首先,您需要查看所有单词索引以查找所有专有名词的索引,然后查看矩阵并增加这些索引的权重。