我正在使用show_prediction
包中的eli5
函数来了解我的XGBoost分类器如何得出预测。由于某种原因,我似乎得到了回归得分,而不是模型的概率。
以下是带有公共数据集的完全可复制的示例。
from sklearn.datasets import load_breast_cancer
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from eli5 import show_prediction
# Load dataset
data = load_breast_cancer()
# Organize our data
label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']
# Split the data
train, test, train_labels, test_labels = train_test_split(
features,
labels,
test_size=0.33,
random_state=42
)
# Define the model
xgb_model = XGBClassifier(
n_jobs=16,
eval_metric='auc'
)
# Train the model
xgb_model.fit(
train,
train_labels
)
show_prediction(xgb_model.get_booster(), test[0], show_feature_values=True, feature_names=feature_names)
这给了我以下结果。注意3.7分,这绝对不是概率。
官方eli5 documentation正确显示了概率。
丢失的概率似乎与我使用xgb_model.get_booster()
有关。看起来官方文档没有使用它,而是按原样传递了模型,但是当我这样做时,我得到了TypeError: 'str' object is not callable
,因此这似乎不是一种选择。
我还担心eli5不能通过遍历xgboost树来解释预测。看来,我得到的“分数”实际上只是所有要素贡献的总和,就像我期望的那样,如果eli5并不是真正遍历树,而是拟合线性模型。真的吗?我还如何使eli5遍历树?
答案 0 :(得分:2)
解决了我自己的问题。根据{{3}},eli5仅支持XGBoost的旧版本(<= 0.6)。我正在使用XGBoost版本0.80和eli5版本0.8。
发布问题解决方案:
import eli5
from xgboost import XGBClassifier, XGBRegressor
def _check_booster_args(xgb, is_regression=None):
# type: (Any, bool) -> Tuple[Booster, bool]
if isinstance(xgb, eli5.xgboost.Booster): # patch (from "xgb, Booster")
booster = xgb
else:
booster = xgb.get_booster() # patch (from "xgb.booster()" where `booster` is now a string)
_is_regression = isinstance(xgb, XGBRegressor)
if is_regression is not None and is_regression != _is_regression:
raise ValueError(
'Inconsistent is_regression={} passed. '
'You don\'t have to pass it when using scikit-learn API'
.format(is_regression))
is_regression = _is_regression
return booster, is_regression
eli5.xgboost._check_booster_args = _check_booster_args
然后将问题的代码段的最后一行替换为:
show_prediction(xgb_model, test[0], show_feature_values=True, feature_names=feature_names)
解决了我的问题。