如何从Countvectorizer token_pattern进行Hashtag并提及chars presercve

时间:2019-02-19 08:30:41

标签: hashtag countvectorizer

我使用sklearn库从推文中提取字数。但是我有一个问题,就是失去了一些特殊字符。我想从countvectorizer函数保留#和@字符。

默认的token_pattern参数为:token_pattern ='(?u)\ b \ w \ w + \ b'

例如,语料库在下面;

['@terör @terör #terör ak @terör ali ali ...']

输出是;

['ak', 'ali', 'terör', ...]

默认正则表达式删除特殊字符。我如何保存这些字符?

1 个答案:

答案 0 :(得分:0)

我用来更改参数;

token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')

输出随心所欲;

['@terör', '#terör', ...]