我使用sklearn训练对某些文本数据进行逻辑回归,方法是使用CountVectorizer将数据标记为bigrams。我使用了一行代码,如下所示:
vect= CountVectorizer(ngram_range=(1,2), binary =True)
但是,我想限制自己只在我的结果稀疏矩阵中包含bigrams,这些bigrams在我的所有数据中出现超过某个阈值次数(例如50)。有没有办法指定或实现它?
答案 0 :(得分:3)
看起来这可以通过使用CountVectorizer的min_df参数来解决:
vect= CountVectorizer(ngram_range=(1,2), binary =True, min_df = 500)
答案 1 :(得分:1)
使用Inten intent = new Intent();
intent.setFlags(Intent.FLAG_ACTIVITY_NEW_TASK);
...
也可以选择前5000名发生的双字母组合。