如何有效管理lightgbm的输入数据集以避免内存错误

时间:2018-07-05 15:06:24

标签: out-of-memory sparse-matrix lightgbm

我正在尝试在大型数据框上安装lightgbm模型多类模型:

train_data = lgb.Dataset(train_df[v1].values, label=label)

631,761 x 1786列(2.2gb)。运行良好。但是,只有一列,其中包含10000个唯一类(我目前正在pd.factorize的帮助下在模型中使用该类)。但是我想转置它们并用作每个类的指标,如下所示:

train_data = lgbm.Dataset(train_df[v1].values, label=label,feature_name=v1,categorical_feature=['ward_id'])

此转换导致内存错误。有什么有效的方法可以做到这一点,而不会遇到内存错误。

这是我的配置:

Core i7, 16 GB ram.

0 个答案:

没有答案