Scikit-learn的CountVectorizer课程允许您传递字符串'英语'到参数stop_words。我想在此预定义列表中添加一些内容。谁能告诉我怎么做?
答案 0 :(得分:46)
根据sklearn.feature_extraction.text
的{{3}},frozenset
的完整列表(实际为ENGLISH_STOP_WORDS
来自__all__
)通过from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)
公开}。因此,如果您想使用该列表以及更多项目,您可以执行以下操作:
my_additional_stop_words
(其中stop_words
是任何字符串序列)并将结果用作CountVectorizer.__init__
参数。 _check_stop_list
的此输入由frozenset
解析,直接传递新的{{1}}。