我正在做一个小项目。可以说,我有一个大约100K记录的表,其中包含年龄,性别,地区,生活(名义 - 使用产品的天数范围)等列,此处生活是一个因变量,所有其他都是独立变量。我创建了可用数据中的决策树。现在我的查询是,假设我有一条新记录,我想知道在遍历决策树之后该记录落在哪个终端节点,即该记录落在哪个Life范围内。为此,我如何将该记录传递给决策树并获得输出?
答案 0 :(得分:0)
predict(model,newdata)
让我们说你的原始data.frame
在你的问题中列出了4列。您的新记录需要格式化为data.frame,其列名与您的独立因子相同,例如newdata = data.frame(Age=15,Gender="Male",Region="Southwest")
或这些值应该是什么。假设您已经存储了模型model = rpart(Life~.,data=data,method="class")
,然后predict(model,newdata)
将返回新记录属于每个终端类的概率向量。然后,您需要使用一些截止逻辑来确定您将哪个组分配给它。