Question

Count Vectorizer对其文档here中所写的某些英文单词'a'实施默认基本过滤。它只是忽略了我不想要的东西。有没有办法阻止它这样做？

>>> count_vectorizer = CountVectorizer()
>>> list = ['a for the']
>>> counts = count_vectorizer.fit_transform(list)
>>> print counts

输出

(0, 0)  1
(0, 1)  1

表示它识别出'for'和'the'（已测试）但未能识别'a'。有什么方法可以识别每个可能的单词吗？

Answer 1

来自doc： token_pattern：string 正则表达式表示什么构成“标记”，仅在analyzer =='word'时使用。默认正则表达式选择2个或更多字母数字字符的标记（标点符号完全被忽略，并始终被视为标记分隔符）。

默认正则表达式是：

token_pattern='(?u)\b\w\w+\b'

只需编写您想要使用的正则表达式。