应用错误收集

我正在尝试使用长度为3的单词绑定字符对以下文档进行矢量化处理：

docs = ['QWERTYUIOP ASDFGHJK', 'ZXCVBNM']

vect = CountVectorizer(analyzer = 'char_wb', ngram_range=(3, 3), stop_words = [' '])
X = vect.fit_transform(docs)

运行list(vect.get_feature_names())表示它正在单词的开头和结尾添加一个空格。文档（http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html）和本文（CountVectorizer(analyzer='char_wb') not working as expected）似乎暗示这是要发生的事情（“单词边缘的n-gram被空格填充”。）

但是，我不想要这个。修改它的最简单方法是什么？

谢谢，杰克

CountVectorizier（sklearn）中的char_wb在单词前后添加空格

0 个答案: