Question

我知道我们可以在tf-idf中使用停用词列表，但是有没有办法只使用一个单词列表而忽略其他单词呢？
例如，在这里我声明一个停用词列表：
vectorizer = TfidfVectorizer(stop_words="english")
如果我只考虑句子中的猫和狗，我想要的东西是：
vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
我的目标是仅考虑特定单词来进行文本聚类吗？
有解决方案吗？

Answer 1

是的。说你有一个单词数组

words = ['you','me','we']
TfidfVectorizer(vocabulary=words)

您可以使用词汇表参数仅传递所选的单词。

TF-IDF如何仅获取单词列表

1 个答案: