构建随机森林训练程序的数据集

时间:2013-02-27 21:41:29

标签: algorithm machine-learning decision-tree random-forest

我应该使用 bagging bootstrap聚合的缩写)技术来训练随机森林分类器。我阅读了here这种学习技巧的描述,但我还没弄清楚我最初是如何组织数据集的。

目前我首先加载所有正面示例,然后立即加载负面示例。此外,正面例子不到一半的负面因素,因此通过统一数据集抽样,获得一个反面例子的概率大于获得一个正面例子的概率。

我应该如何构建初始数据集? 我应该改组包含正面和负面示例的初始数据集吗?

1 个答案:

答案 0 :(得分:2)

装袋取决于使用bootstrap samples来训练不同的预测变量,并汇总其结果。有关详细信息,请参阅上面的链接,但简而言之 - 您需要重复采样数据(例如,如果您有N个元素编号为1到N,则选择1和N之间的K个随机整数,并选择那些N个元素为训练集),通常创建与原始数据集大小相同的样本(即K = N)。

您应该记住的另一件事 - 随机森林不仅仅是原始数据上的引导聚合 - 还可以随机选择要在每个树中使用的要素子集。

相关问题