我有一个数据框,“Labeled_Data”。此数据框中的一个变量称为“PCT_Stock_MF_1”。此变量PCT_Stock_MF_1具有我想要使用的值0-100,以及我想忽略的值998和999。我想将这些值组合在一起:0-19,20-49,50-74和75-100。
然后,我想将这些群体标记为“低风险”(0:19),“某些风险”(20-49),“高风险”(50-74)和“实质性风险”(75-100) )。
我想将这些分组,以便我可以使用原始“Labeled_Data”数据框中的其他变量对此变量运行回归。
如果它使我对“PCT_Stocks_MF_1”的描述更清楚,这里是变量的描述:
描述(PCT_Stocks_MF_1) PCT_Stocks_MF_1:股票或互助基金的百分比-1 缺少独特的信息意味着.05 .10 .25 5121 10879 45 0.92 229.4 30 50 70 .50 .75 .90 .95 100 100 998 998
最低:1 2 3 4 5,最高:98 99 100 998 999
类(PCT_Stocks_MF_1) [1]“标记”“整数”
感谢您提供任何帮助
答案 0 :(得分:0)
cut()示例:
# Generate some sample data
values <- as.integer(c(runif(48, 0, 100), 998, 999))
# Filter out values greater than 100
results <- data.frame(values=values[values<=101])
# Assign risk category
results$risk <- cut(results$values, c(0, 19, 49, 74, 100),
labels=c("Low", "Some", "High", "Substantial" ), include.lowest=T)
要按组运行回归(或调用其他功能),请查看dplyr
包。