在非常不平衡的数据中功能的重要性

时间:2019-04-14 20:23:06

标签: r

我遇到了欺诈检测挑战。数据集极不平衡,例如100000个负示例,而只有1000个正示例。 可能的预测变量的数量为25。有连续的和离散的,类别从2 2 10变化。 问题的主要重点是对最重要的变量进行排名,这将有助于识别欺诈,并且不会直接构建最佳模型,而在此情况下,当然不能根据准确性来判断最佳模型。  我使用的是R,由于它更喜欢具有更多类别的连续变量和离散变量,因此我可能会跳过随机森林。 我正在考虑使用ctree(R)–条件推理树。有许多论文建议使用选择频率和置换重要性,将单个树构建在原始样本大小为n的引导样本上,而无需替换。

我的问题:

1。有没有人尝试过,如果是这样,体验是什么?

2。 LASSO或RIDGE回归在这种情况下是否有用?

3。我不确定欠采样/上采样/合成样本等会带来什么影响,因为使用它们,我不知道如何量化其对功能重要性的影响。

4。因功能重要性而受到惩罚的模型?如何,对此有什么经验?

5。一个普遍的问题:无论采用哪种方法,我都需要将数据分为训练/测试,这对于积极的学生来说非常有趣,即使使用交叉验证也是如此。假设我在火车数据上获得了相同的排名变量,我会怀疑在如此微小的测试数据上结果的结果。我是错了还是想念这里的东西?

6。还有其他想法,经验要分享吗?

谢谢!

0 个答案:

没有答案