Question

我使用sklearn训练对某些文本数据进行逻辑回归，方法是使用CountVectorizer将数据标记为bigrams。我使用了一行代码，如下所示：

vect= CountVectorizer(ngram_range=(1,2), binary =True)

但是，我想限制自己只在我的结果稀疏矩阵中包含bigrams，这些bigrams在我的所有数据中出现超过某个阈值次数（例如50）。有没有办法指定或实现它？

Answer 1

看起来这可以通过使用CountVectorizer的min_df参数来解决：

vect= CountVectorizer(ngram_range=(1,2), binary =True, min_df = 500)

Answer 2

使用Inten intent = new Intent(); intent.setFlags(Intent.FLAG_ACTIVITY_NEW_TASK); ...也可以选择前5000名发生的双字母组合。