GradientBoostingClassifier和许多列

时间:2016-11-29 16:52:22

标签: python classification gbm

我使用GradientBoosting分类器来预测用户的性别。数据有很多预测因子,其中一个是国家。对于每个国家,我都有二进制列。对于所有国家/地区列,始终只有一列设置为1。但从计算的角度来看,这样的决定非常缓慢。有没有办法用一列代表国家/地区列?我的意思是正确的方式。

1 个答案:

答案 0 :(得分:1)

您可以将二进制变量替换为实际的国家/地区名称,然后将所有这些列折叠为一列。在此列上使用LabelEncoder创建一个正确的整数变量,您应该全部设置。