我知道我们可以在tf-idf中使用停用词列表,但是有没有办法只使用一个单词列表而忽略其他单词呢?
例如,在这里我声明一个停用词列表:
vectorizer = TfidfVectorizer(stop_words="english")
如果我只考虑句子中的猫和狗,我想要的东西是:
vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
我的目标是仅考虑特定单词来进行文本聚类吗?
有解决方案吗?
答案 0 :(得分:0)
是的。 说你有一个单词数组
words = ['you','me','we']
TfidfVectorizer(vocabulary=words)
您可以使用词汇表参数仅传递所选的单词。