sklearn中的CountVectorizer只有高于某个最小出现次数的单词

时间:2015-02-24 02:01:25

标签: python text scikit-learn tokenize

我使用sklearn训练对某些文本数据进行逻辑回归,方法是使用CountVectorizer将数据标记为bigrams。我使用了一行代码,如下所示:

vect= CountVectorizer(ngram_range=(1,2), binary =True)

但是,我想限制自己只在我的结果稀疏矩阵中包含bigrams,这些bigrams在我的所有数据中出现超过某个阈值次数(例如50)。有没有办法指定或实现它?

2 个答案:

答案 0 :(得分:3)

看起来这可以通过使用CountVectorizer的min_df参数来解决:

vect= CountVectorizer(ngram_range=(1,2), binary =True, min_df = 500)

答案 1 :(得分:1)

使用Inten intent = new Intent(); intent.setFlags(Intent.FLAG_ACTIVITY_NEW_TASK); ... 也可以选择前5000名发生的双字母组合。