我正在处理AWS Sagemaker上的信用欺诈数据集。数据集高度不平衡。它只有0.1732%的欺诈交易。我想使用Sagemaker的XG-Boost将给定交易预测为欺诈(1)或不欺诈(0)。当我将超参数中的目标函数设置为'multi:softmax'且类数= 2时,召回率为85%,效果良好。当我将目标函数设置为'reg:logistic'时,我的回忆将变为0。它只是将每个事务标记为非欺诈性的。两个类的logistic和multi-softmax不应给出相同的答案吗?另外,在处理不平衡数据集时,是否应更改其默认值的超参数? 谢谢
答案 0 :(得分:0)
不平衡数据集的第一件事是确保少数标签示例的过多表示。 XGBoost使用参数scale_pos_weight
为此提供了一个条件。
请参阅参数scale_pos_weight
的详细信息,网址为
https://xgboost.readthedocs.io/en/latest/parameter.html