我正在使用随机森林算法作为我论文项目的分类器。 训练集由数千个图像组成,每个图像约2000个 像素得到采样。对于每个像素,我有成千上万的功能。同 我目前的硬件限制(8G的内存,可能可扩展到16G)我能够 使记忆只适合一个图像的样本(即每个像素的特征)。我的 问题是:每次都可以多次调用火车方法 使用不同图像的样本,并自动获取统计模型 每次通话都更新?在我之后,我对变量的重要性特别感兴趣 训练完整的训练集与整个功能集,我的想法是减少 功能的数量从几十万到大约2000,只保留 最重要的。
感谢您的任何建议, 丹尼尔
答案 0 :(得分:2)
我不认为该算法支持增量训练。您可以考虑使用其他功能缩减方法在训练之前减小描述符的大小。或者估算所有训练图像中随机像素子集的变量重要性,尽可能多地记录在你的记忆中......
答案 1 :(得分:1)
请参阅我对this post的回答。有随机森林的增量版本,它们可以让你训练更大的数据。