python - 使用针对多类问题的过滤器进行特征选择：如果许多特征强烈预测少数类怎么办？

使用针对多类问题的过滤器进行特征选择：如果许多特征强烈预测少数类怎么办？

时间：2019-02-07 10:37:13

标签： python scikit-learn feature-selection

我正在对100多个类进行文本分类。首先，我想使用过滤器方法（互信息或chi2）进行特征选择。

我计划使用sklearn.feature_selection.SelectPercentile，但现在我想知道：根据文章A Pitfall and Solution in Multi-Class Feature Selection for Text Classification，如果我的某些功能对某些班级具有较强的预测能力，但得分较低，则这种方法的效果应不佳在其他类别中的chi2 / MI值。

我该如何实现一个程序，让每个班级轮流为该班级选择最相关的功能？已经在Python中以某种方式实现了吗？

0 个答案:

没有答案

具有连续值的特征的特征选择算法POE1ACC
如何发现数据集中的哪些特征具有预测性？
是否有基于过滤器的功能选择方法可在线实现？
Pyspark：使用过滤器进行特征选择
使用Sklearn
scikit中的功能选择 - 了解大量功能
使用chi2测试进行连续特征选择（Scikit Learn）
在keras上使用LSTM进行未知特征向量的多类分类
使用针对多类问题的过滤器进行特征选择：如果许多特征强烈预测少数类怎么办？
dlib：对多类问题进行排序

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？