我正在用大约580mb的较大数据集训练RandomForest分类器,这需要30多分钟才能完成。 现在,当我尝试使用joblib保存模型时,保存的模型大约需要11.1gb的空间。 这是正常的吗,还是我在考虑部署模型时可以在消耗的空间方面更有效地保存模型。
使用一个占用这么多空间的模型是否值得,因为我对一个占用278mb空间的相同数据有一个决策树模型,其准确性仅降低了2%(91%)
这是模型保存代码
from sklearn.externals import joblib
# Save the model as a pickle in a file
joblib.dump(Random_classifier, '/content/drive/My Drive/Random_classifier.pkl')
我是新手,所以不要投票结束问题,只需发表评论。我愿意尽快编辑问题。
答案 0 :(得分:0)
随机森林分类方法在内存中非常昂贵。 尝试降低决策树的数量,可能会减少一些内存。 看来您的数据集也很大,所以我认为您的权重大小合法。 我也知道有减轻体重的泡菜方法,我也建议您检查一下。