我正在尝试在大型数据框上安装lightgbm模型多类模型:
train_data = lgb.Dataset(train_df[v1].values, label=label)
631,761 x 1786
列(2.2gb)。运行良好。但是,只有一列,其中包含10000个唯一类(我目前正在pd.factorize
的帮助下在模型中使用该类)。但是我想转置它们并用作每个类的指标,如下所示:
train_data = lgbm.Dataset(train_df[v1].values, label=label,feature_name=v1,categorical_feature=['ward_id'])
此转换导致内存错误。有什么有效的方法可以做到这一点,而不会遇到内存错误。
这是我的配置:
Core i7, 16 GB ram.