标签: scikit-learn nltk
我有什么方法可以保留!,?,"的标点符号。和'在我的文本文档中使用Scikit-Learn中的文本CountVectorizer或TfidfVectorizer参数?
提前致谢。
答案 0 :(得分:8)
实例化矢量图时,应自定义token_pattern参数。例如:
token_pattern
vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")