TF-IDF如何仅获取单词列表

时间:2019-01-18 10:57:10

标签: python tf-idf stop-words tfidfvectorizer

我知道我们可以在tf-idf中使用停用词列表,但是有没有办法只使用一个单词列表而忽略其他单词呢?
例如,在这里我声明一个停用词列表:
    vectorizer = TfidfVectorizer(stop_words="english")
如果我只考虑句子中的,我想要的东西是:
    vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
我的目标是仅考虑特定单词来进行文本聚类吗?
有解决方案吗?

1 个答案:

答案 0 :(得分:0)

是的。 说你有一个单词数组

words = ['you','me','we']
TfidfVectorizer(vocabulary=words)

您可以使用词汇表参数仅传递所选的单词。