我有一个包含125个变量的数据框。有相当多的NAs,因为这些数据来自一项调查,该调查只有在根据以前的答案才有意义的情况下才能提出问题。
我正在尝试使用“tree”包构建分类树。当我尝试建树时
t1 <- tree(outcome ~ ., data=surveyData)
我收到错误"no observations from which to fit a model"
。
我不确定如何解释此错误,并且在论坛或文档中找不到任何内容。
我一直在尝试用一些较小的子集构建树,这似乎有用。
有人能指出我正确的方向吗?
非常感谢!
答案 0 :(得分:2)
我发现了问题。我有一些数据列有太多的NA,它使树函数抱怨。我删除了这些变量,并能够创建一个树。
我删除了有问题的列并以这种方式构建了一个树:
naCols <- vector(length=125)
for (i in 1:125){ naCols[i]<- sum(is.na(data[,i]))}
subset <- data[,which(naCols < 10)]
myTree <- (outcome ~ ., data=subset)
我有一个更大的问题,即找出处理所有NAs的最佳方法 - 但这是另一回事。