标签: machine-learning selection
在我的数据集中,目标变量是名义上的(只有两个状态),所有其他的都是数字。数据集非常不平衡。在寻找处理不平衡数据集的解决方案后,我找到了SMOTE(合成少数过采样技术)。应用SMOTE算法后,数据集的大小增加(我使用了算法的Weka实现)。
现在我的问题是,如何在这样的不平衡数据集中确定影响我的目标变量的重要特征/属性?这种算法有没有可用的实现?