如何使用scikit-learn来分类文本

时间:2017-08-29 14:37:18

标签: python machine-learning scikit-learn

我想使用scikit-learn对两个文本进行分类。但我想自己提取功能。就像在 CountVectorizer 上使用stop_words='english'来停止英语单词列表一样。如何设置我自己的单词列表让 CountVectorizer 计数?

1 个答案:

答案 0 :(得分:0)

您可以在CountVectorizer中的stop_words参数中提供自己的停用词列表,它不会计算您不想在scikit-learn中输入文本中计算的词数。 例如,如果我不想要像#34; cat"," dog"和" elephant"要使用作为标记,我将实例化CountVectorizer如下:

CountVectorizer(stop_words=['cat','dog', elephant'])

希望有所帮助。