我正在玩KDD CUP 1998数据集,我有几个问题,我希望有些人可以帮我回答。对于那些不熟悉这个数据集的人来说,它基本上是一个人员列表,他们是否捐赠给慈善机构(包括他们捐赠的金额)。
问题1: 数据集有大约95,000条记录,但只有5%属于1级(捐赠),其余为2级。在培训时如何处理这一问题以避免过度拟合?
问题2: 我想以两种方式解决这个问题。首先,确定谁将捐赠谁将不捐款(也许我将使用逻辑回归和随机森林分类器?)然后我想确定一个人捐赠多少..有关我可以尝试哪些方法的任何想法?
谢谢!
答案 0 :(得分:0)
1)https://stats.stackexchange.com/questions/20948/best-way-to-handle-unbalanced-multiclass-dataset-with-svm 任何现代ML lib都会对类/样本(sklearn for example)赋予权重,因此您可以在频率较低的类上惩罚错误。或者,您可以对数据进行重新采样,使其变得更加平衡(在集合中多次从较不频繁的类复制对象,或删除更频繁类的对象)。
2)只需在决策树上尝试不同的分类器,如SVM,RF,AdaBoost,并选择一个在测试集上获得最佳结果的分类器。