我正在使用xgboost库中的XGBClassifier来基于两个功能对二进制数据集进行分类。我的算法效果很好,但是问题是我的训练数据集在拥有来自两个类(A和B)的数据方面是相当平衡的,但是我的测试数据集是不平衡的。这并不是很严重的失衡,但比率约为16%。我认为这可能会导致AUC计算中出现一些错误或分类错误。我知道在XGBClassifier类的fit函数中:
sample_weight_eval_set(列表,可选)–形式为[L_1,L_2,…,L_n]的列表,其中每个L_i是第i个验证集中的实例权重的列表。
但是我的问题是我不知道如何为我的评估数据集(即测试数据集)计算这些权重,我在google和github中进行了大量搜索,但实际上没有找到任何东西。我感谢有人可以帮助您计算这些权重。