我设置了一个不平衡的火车数据,现在我想对我的少数族裔类别(“不好的”)施加一些权重,然后对其进行预测权重进入rpart
commado:
我的数据框看起来像这样:
> head(train)
case V1 V2 V3 V4
1 bad a LL AUT 1
2 good b LL AUT 3
3 good b LL AUT 2
4 good b LL MAN 1
5 good c RL AUT 2
6 good b LL AUT 3
现在把重点放在我的“坏”案例上:
caseweights <- train$case[train$case == "bad"]
> tree <- rpart(train$case ~ ., train,
+ method = "class",
+ minsplit =1, minbucket=1, maxdepth=3,
+ parms = list(split = "gini"),
+ cp=-1, weight = caseweights)
但这给了我这个错误:
model.frame.default(formula = train $ case〜。,data = 火车::Variablenlängensind unterschiedlich(gefundenfür '(重量)')
这是德语,基本上说变量的长度是不同的(在'(weights)'中找到。...
所以我去看看我的数据集有多长时间:
> nrow(train)
[1] 11525
> nrow(caseweights)
NULL # <---------- Why NULL?
当我看一下caseweigths时,可以看到一个带有420个“坏”条目的向量... 我在哪里想错了?