Question

我正在做文本分类，并在CountVectorizer中使用朴素贝叶斯。我正在寻找手动添加和删除功能的方法。也许我可以通过stop_words删除功能（这是最好的方法吗？），但是我找不到添加功能的方法。如果我使用“ vocabulary”参数，那么除了词汇表中存在的功能外，不会从文本中提取任何功能。那是个问题

Answer 1

是的，使用stop_words删除功能是保持结果一致的最佳方法。您也可以进行遍历并手动删除数据，但这与使用stop_words删除数据相同。要将元素添加到sklearn中的stop_word中，请执行此操作。

from sklearn.feature_extraction import text 
stop_words = text.ENGLISH_STOP_WORDS.union(additional_stop_words)

我可以从CountVectorizer中手动添加和删除功能吗？

1 个答案: