CountVectorizier(sklearn)中的char_wb在单词前后添加空格

时间:2018-08-20 15:39:38

标签: python scikit-learn nlp

我正在尝试使用长度为3的单词绑定字符对以下文档进行矢量化处理:

docs = ['QWERTYUIOP ASDFGHJK', 'ZXCVBNM']

vect = CountVectorizer(analyzer = 'char_wb', ngram_range=(3, 3), stop_words = [' '])
X = vect.fit_transform(docs)

运行list(vect.get_feature_names())表示它正在单词的开头和结尾添加一个空格。文档(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html)和本文(CountVectorizer(analyzer='char_wb') not working as expected)似乎暗示这是要发生的事情(“单词边缘的n-gram被空格填充”。)

但是,我不想要这个。修改它的最简单方法是什么?

谢谢, 杰克

0 个答案:

没有答案