在CountVectorizer上使用Regex删除数字和符号

时间:2018-05-07 16:30:32

标签: regex scikit-learn countvectorizer

目前,我有一个CountVectorizer功能

CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')

默认情况下,Sklearn使用token_pattern,我在get_features_names上有一些结果如下:

000,02,10,100,1080,11,14,17,19,1994,1ª,2015,2017,22,24horas,2t0s6dgxnm,30,31,32,_aitor,_anamilan_,_cuteresa,_raquel97_

我想删除数字 _ 符号。我知道要这样做我必须默认修改正则表达式函数:r'(?u)\b\w\w+\b'所以,有什么建议吗?

感谢。

更新:

好话: abrazo,aburrir,extrañar,además

坏词: anamilan ,000,02,10,100,1080

我想添加ñ,á,é,í,ó,ú,我尝试使用[á-ú_ñ]+,但它不起作用。

1 个答案:

答案 0 :(得分:1)

此模式应匹配所有数字和_。

int f; try { f = x.nextInt(); }catch (InputMismatchException e){ System.out.println("Enter only digits"); }