如何在Scikit-Learn文本CountVectorizer或TfidfVectorizer中保留标点符号?

时间:2016-08-31 15:57:36

标签: scikit-learn nltk

我有什么方法可以保留!,?,"的标点符号。和'在我的文本文档中使用Scikit-Learn中的文本CountVectorizer或TfidfVectorizer参数?

提前致谢。

1 个答案:

答案 0 :(得分:8)

实例化矢量图时,应自定义token_pattern参数。例如:

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")