这是我的第一个数据挖掘项目。我正在使用SAS Enterprise矿工来训练和测试分类器。
我有三个文件可供我使用,
我的问题是数据集是不平衡的(训练文件中目标变量的0%和1%的5%)。很自然地,我尝试使用"采样节点"重新采样模型。如以下link
所述以下是我使用的两种方法,它们给出的结果略有不同。但这是我得到的一般不令人满意的结果:
我正在寻找100到200名被请求的人,以获得一个被认为可以接受的模型。
为什么你认为我们的预测不是这样的,我们如何才能解决这种情况呢?
这是两个模型的屏幕截图
答案 0 :(得分:1)
有一些技术可以处理不平衡的数据。很多年前我记得的就是这种方法: