如何阻止Python Sci-kit库的Count Vectorizer进行任何类型的文字过滤?

时间:2016-01-25 11:24:01

标签: python scikit-learn

Count Vectorizer对其文档here中所写的某些英文单词'a'实施默认基本过滤。它只是忽略了我不想要的东西。有没有办法阻止它这样做?

>>> count_vectorizer = CountVectorizer()
>>> list = ['a for the']
>>> counts = count_vectorizer.fit_transform(list)
>>> print counts

输出

(0, 0)  1
(0, 1)  1

表示它识别出'for''the'(已测试)但未能识别'a'。有什么方法可以识别每个可能的单词吗?

1 个答案:

答案 0 :(得分:2)

来自doc: token_pattern:string 正则表达式表示什么构成“标记”,仅在analyzer =='word'时使用。默认正则表达式选择2个或更多字母数字字符的标记(标点符号完全被忽略,并始终被视为标记分隔符)。

默认正则表达式是:

token_pattern='(?u)\b\w\w+\b'

只需编写您想要使用的正则表达式。