我正在尝试使用长度为3的单词绑定字符对以下文档进行矢量化处理:
docs = ['QWERTYUIOP ASDFGHJK', 'ZXCVBNM']
vect = CountVectorizer(analyzer = 'char_wb', ngram_range=(3, 3), stop_words = [' '])
X = vect.fit_transform(docs)
运行list(vect.get_feature_names())
表示它正在单词的开头和结尾添加一个空格。文档(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html)和本文(CountVectorizer(analyzer='char_wb') not working as expected)似乎暗示这是要发生的事情(“单词边缘的n-gram被空格填充”。)
但是,我不想要这个。修改它的最简单方法是什么?
谢谢, 杰克