不平衡数据集的二进制分类问题

时间:2019-12-27 09:56:26

标签: r imbalanced-data

我是机器学习的新手,需要帮助。我有两个类别(0,1)的数据集,其中0是可获利的,1是不可获利的。火车中0:1的比例是150/52

阳性表示为“ 1”(无利润),将阴性表示为0(可盈利),假阴性成本为4900,假阳性成本为4000。 目标是使f(利润)= 4000 *(真否定数-误正数)-(4900 *假否定数)最大化,以便至少> 1775 $(无任何模型的基本利润)

借助EDA,我认为雇主的工作年限,债务/收入比率和年龄是最重要的预测指标。 使用scale_pos_weight = 3的xgboost可以在训练集上获得出色的结果,但是在测试集上却表现不佳(过度拟合)。

无论我尝试多少,我都无法将测试集的利润提高到超过1375美元(如上所述,至少需要> 1775美元)

即使具有损失功能的rpart也无济于事...任何人都可以提供任何输入

但是如果我采用其他方法(即仅对雇主在<20年的年份进行观察),然后在培训和测试集上应用glm或rpart的结果确实很棒,但这是这种方法吗?哪有吧? (之所以这样做,是因为EDA表示所有无利可图的客户在火车上的年薪都是“雇主<20岁”)

0 个答案:

没有答案