标签: r statistics random-forest factors
或者包装是否意识到它们不是连续的并且将它们视为因素?我知道,对于分类,被分类的特征确实需要是一个因素。但是预测功能呢?我在几个玩具数据集上运行它,根据分类特征是数字还是因子,我得到的结果略有不同,但算法是随机的,所以我不知道我的结果中的差异是否有意义。
谢谢!
答案 0 :(得分:3)
是的,两者之间存在差异。如果要使用因子变量,则应将其指定为此类,而不是将其保留为数字。
对于分类数据(this实际上是CrossValidated的一个非常好的答案):
对具有N个级别的因子的分割实际上是(2 ^ N)-2个可能组合之一的选择。因此,算法将检查所有可能的组合,并选择产生更好分裂的组合
对于数值数据(如here所示):
对数值预测值进行排序,然后对每个值进行排序,计算基尼杂质或熵,并选择一个给出最佳分裂的阈值。
因此,无论您是将其添加为因子还是数字变量,都会产生影响。差异有多大取决于实际数据。