在scikit-learn的CountVectorizer的停止列表中添加单词

时间:2014-06-24 12:19:50

标签: python scikit-learn stop-words

Scikit-learn的CountVectorizer课程允许您传递字符串'英语'到参数stop_words。我想在此预定义列表中添加一些内容。谁能告诉我怎么做?

1 个答案:

答案 0 :(得分:46)

根据sklearn.feature_extraction.text的{​​{3}},frozenset的完整列表(实际为ENGLISH_STOP_WORDS来自__all__)通过from sklearn.feature_extraction import text stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words) 公开}。因此,如果您想使用该列表以及更多项目,您可以执行以下操作:

my_additional_stop_words

(其中stop_words是任何字符串序列)并将结果用作CountVectorizer.__init__参数。 _check_stop_list的此输入由frozenset解析,直接传递新的{{1}}。