如何使用Regex CountVectorizer构建自定义功能?

时间:2018-07-13 21:18:26

标签: scikit-learn countvectorizer

我想使用CounterVectorizer在通常构建的功能之上自定义构建功能。假设我有一些句子如下...

I don't like your attitude
I don't like to work here
I don't like donuts 
I don't like to run

我想让CounterVectorizer用ngram_range=(2,3)来根据此数据构建功能,但是对于I don't like,我想知道是否可以传递正则表达式(I don't like)并把这个字母组合成一个字母组合。结果,除了CounterVectorizer的所有功能之外,我还可以将三元组I dont like转换为二元组REGEX yourREGEX donutsREGEX runREGEX work将建立。

0 个答案:

没有答案