Count Vectorizer对其文档here中所写的某些英文单词'a'
实施默认基本过滤。它只是忽略了我不想要的东西。有没有办法阻止它这样做?
>>> count_vectorizer = CountVectorizer()
>>> list = ['a for the']
>>> counts = count_vectorizer.fit_transform(list)
>>> print counts
输出
(0, 0) 1
(0, 1) 1
表示它识别出'for'
和'the'
(已测试)但未能识别'a'
。有什么方法可以识别每个可能的单词吗?
答案 0 :(得分:2)
来自doc: token_pattern:string 正则表达式表示什么构成“标记”,仅在analyzer =='word'时使用。默认正则表达式选择2个或更多字母数字字符的标记(标点符号完全被忽略,并始终被视为标记分隔符)。
默认正则表达式是:
token_pattern='(?u)\b\w\w+\b'
只需编写您想要使用的正则表达式。