应用错误收集

如何减少文本分类中的功能数量？

时间：2019-05-19 20:18:15

标签： python nlp text-classification naivebayes countvectorizer

我正在做方言文本分类，并且将countVectorizer与朴素贝叶斯一起使用。功能的数量太多，我收集了4万种方言的2万条推文。每个方言都有5000条推文。并且功能总数为43K。我当时在想，也许这就是为什么我会过拟合。因为当我对新数据进行测试时，准确性下降了很多。那么，如何确定功能数量以避免数据过拟合？

2 个答案:

答案 0 :(得分：1)

例如，您可以将参数 max_features 设置为5000，这可能有助于过度拟合。您也可以修改 max_df （例如将其设置为0.95）

答案 1 :(得分：1)

测试数据下降的原因是curse of dimensionality。您可以使用某些降维方法来减少这种影响。可能的选择是在sklearn中实现的潜在语义分析。

减少SPSS中的功能数量
怎么估计功能总数？
根据feature_importances_减少功能数量
Xgboost DMatrix的初始化减少了功能号
PAM使用的功能数量？
如何在文本分类中使用多个功能的文本？
文本挖掘中的功能数量
如何减少文本分类中的功能数量？
模型的功能数量必须与python
如何结合使用GridSearchCV和SelectFromModel来减少特征数量？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？