algorithm - 构建随机森林训练程序的数据集

构建随机森林训练程序的数据集

时间：2013-02-27 21:41:29

标签： algorithm machine-learning decision-tree random-forest

我应该使用 bagging （ bootstrap聚合的缩写）技术来训练随机森林分类器。我阅读了here这种学习技巧的描述，但我还没弄清楚我最初是如何组织数据集的。

目前我首先加载所有正面示例，然后立即加载负面示例。此外，正面例子不到一半的负面因素，因此通过统一数据集抽样，获得一个反面例子的概率大于获得一个正面例子的概率。

我应该如何构建初始数据集？我应该改组包含正面和负面示例的初始数据集吗？

1 个答案:

答案 0 :(得分：2)

装袋取决于使用bootstrap samples来训练不同的预测变量，并汇总其结果。有关详细信息，请参阅上面的链接，但简而言之 - 您需要重复采样数据（例如，如果您有N个元素编号为1到N，则选择1和N之间的K个随机整数，并选择那些N个元素为训练集），通常创建与原始数据集大小相同的样本（即K = N）。

您应该记住的另一件事 - 随机森林不仅仅是原始数据上的引导聚合 - 还可以随机选择要在每个树中使用的要素子集。