我正在做文本分类,并在CountVectorizer中使用朴素贝叶斯。我正在寻找手动添加和删除功能的方法。也许我可以通过stop_words删除功能(这是最好的方法吗?),但是我找不到添加功能的方法。如果我使用“ vocabulary”参数,那么除了词汇表中存在的功能外,不会从文本中提取任何功能。那是个问题
答案 0 :(得分:0)
是的,使用stop_words删除功能是保持结果一致的最佳方法。您也可以进行遍历并手动删除数据,但这与使用stop_words删除数据相同。要将元素添加到sklearn中的stop_word中,请执行此操作。
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(additional_stop_words)