标签: classification xgboost
我目前正在使用大约200k行和大约100列的数据集A。经过一些预处理和功能设计后,我将所有功能都放入XGBoostClassifier中,并获得了一定的准确性。
我后来发现了与前一个完全相同的数据集B,除了一列没有缺失值。我在A和B之间比较了此列,它们共享确切的值,但B没有缺失的值。
然后我要做的是用A中的列替换B中的列。这样做极大地降低了分类器的精度。 我试图了解正在发生的事情,但找不到解释。