rpart和派对专家的几个问题。
1)我试图理解控制参数的差异" minbucket"在rpart和派对。 rpart中的minbucket是否未加权(即使提供了适合树的重量)这是正确的吗?
2)任何人都可以简要描述如何在rpart算法中使用权重吗?我试着下载并查看源代码,但我无法理解它是一个新手。 rpart调用C函数(C_rpart),这似乎是rpart的主要部分,但我无法找到更多关于它的信息。
非常感谢。
答案 0 :(得分:1)
rpart(以及大多数其他机器学习算法)中的权重参数可以被认为完全等同于多次复制那些训练项目。重量为5与重复5次相同。您可以使用一些简单的代码显式创建它,只要您的数据集足够小:
data[rep(1:nrow(data),times=data$weights),]