我在sklearn上使用Xgboost实现了一个讨人喜欢的比赛。 但是,我收到这条“警告”消息:
$ python Script1.py /home/sky/private/virtualenv15.0.1dev/myVE/local/lib/python2.7/site-packages/sklearn/cross_validation.py:516:
警告:y中填充最少的类只有1个成员,这个成员太少了。任何类的最小标签数不能少于n_folds = 3。 %(min_labels,self.n_folds)),警告)
根据stackoverflow的另一个问题: “检查每个类至少有3个样本能够进行StratifiedKFold交叉验证,k == 3(我认为这是GridSearchCV用于分类的默认CV)。”
而且,每节课我至少没有3个样本。
所以我的问题是:
a)有哪些替代方案?
b)为什么我不能使用交叉验证?
c)我可以使用什么?
...
param_test1 = {
'max_depth': range(3, 10, 2),
'min_child_weight': range(1, 6, 2)
}
grid_search = GridSearchCV(
estimator=
XGBClassifier(
learning_rate=0.1,
n_estimators=3000,
max_depth=15,
min_child_weight=1,
gamma=0,
subsample=0.8,
colsample_bytree=0.8,
objective='multi:softmax',
nthread=42,
scale_pos_weight=1,
seed=27),
param_grid=param_test1, scoring='roc_auc', n_jobs=42, iid=False, cv=None, verbose=1)
...
grid_search.fit(train_x, place_id)
参考文献:
One-shot learning with scikit-learn
Using a support vector classifier with polynomial kernel in scikit-learn
答案 0 :(得分:4)
如果您的目标/类只有一个样本,那对于任何模型来说都太少了。您可以做的是获得另一个数据集,最好尽可能平衡,因为大多数模型在平衡集中表现更好。
如果您不能拥有其他数据集,则必须使用您拥有的数据集。我建议你删除那个有孤独目标的样本。因此,您将拥有一个不涵盖该目标的模型。如果这不符合您的要求,则需要一个新的数据集。