我有一个看起来像这样的数据集(我们称之为“x”)......
x <- structure(list(top_bracket_style = c("29L", "23R", "29L", "29R",
"29R", "29L", "29R", "29R", "29R", "29R", "29R", "29R", "29R",
"29L", "90"), column_finish = c("PT", "AW", "PT", "PT", "ML",
"PT", "ML", "PT", "ML", "PT", "PT", "ML", "PT", "PT", "PT"),
foot_finish = c("PT", "AW", "PT", "PT", "ML", "PT", "ML",
"PT", "ML", "PT", "PT", "ML", "PT", "PT", "PT"), glide_style = c("S",
"S", "S", "S", "S", "S", "S", "S", "L", "S", "S", "S", "S",
"S", "S"), cycle_time = c(73L, 148L, 137L, 132L, 139L, 129L,
198L, 110L, 116L, 138L, 130L, 138L, 97L, 132L, 170L)), .Names = c("top_bracket_style",
"column_finish", "foot_finish", "glide_style", "cycle_time"), row.names = c(NA,
15L), class = "data.frame")
该数据描述了在某台机器上的工厂生产的家具产品。顶部支架样式,立柱完成,脚部完成和滑行样式是描述产品构建选项的独特配置的四个特征。周期时间是从开始到结束构建产品所需的时间。
我用
fit <- rpart(cycle_time ~ top_bracket_style + column_finish +
foot_finish + glide_style, method = "anova", data = x)
对数据进行分区,以便识别具有相似平均周期时间的组/群集。当我“打印(适合)”时,我得到以下结果......
1) root 16933 21747274.710800 134.1567944251
2) top_bracket_style=23L,23R,29L,29R 15591 18965219.863130 132.0181514977 *
3) top_bracket_style=120,35L,35R,90 1342 1882283.988077 159.0029806259 *
我想要完成的事情看起来很简单,但我无法找到实现它的方法,即使扩展了对CRAN和Stack Overflow的搜索。我想将rpart
结果转换为看起来像这样的数据框......
此数据框将作为查询表,用于将循环时间输入到我们的生产数据库中,负责在我们的工厂中安排我们的机器。然而,我们还没有想到使用决策树来预测周期时间(使用predict()
函数)。现在,它将比那更受控制。我们满足于从已经生产这些产品的机器上收集数据,并且随着时间的推移改进我们的周期时间计算。
任何帮助都将不胜感激。