Question

目前，我有一个CountVectorizer功能

CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')

默认情况下，Sklearn使用token_pattern，我在get_features_names上有一些结果如下：

000,02,10,100,1080,11,14,17,19,1994,1ª,2015,2017,22,24horas,2t0s6dgxnm,30,31,32,_aitor,_anamilan_,_cuteresa,_raquel97_

我想删除数字和 _ 符号。我知道要这样做我必须默认修改正则表达式函数：r'(?u)\b\w\w+\b'所以，有什么建议吗？

感谢。

更新：

好话： abrazo，aburrir，extrañar，además

坏词： anamilan ，000,02,10,100,1080

我想添加ñ，á，é，í，ó，ú，我尝试使用[á-ú_ñ]+，但它不起作用。

Answer 1

此模式应匹配所有数字和_。

int f; try { f = x.nextInt(); }catch (InputMismatchException e){ System.out.println("Enter only digits"); }