我想使用CounterVectorizer在通常构建的功能之上自定义构建功能。假设我有一些句子如下...
I don't like your attitude
I don't like to work here
I don't like donuts
I don't like to run
我想让CounterVectorizer用ngram_range=(2,3)
来根据此数据构建功能,但是对于I don't like
,我想知道是否可以传递正则表达式(I don't like)
并把这个字母组合成一个字母组合。结果,除了CounterVectorizer的所有功能之外,我还可以将三元组I dont like
转换为二元组REGEX your
,REGEX donuts
,REGEX run
,REGEX work
将建立。