R:如何创建/标记变量

时间:2016-04-02 02:03:04

标签: r

我有一个数据框,“Labeled_Data”。此数据框中的一个变量称为“PCT_Stock_MF_1”。此变量PCT_Stock_MF_1具有我想要使用的值0-100,以及我想忽略的值998和999。我想将这些值组合在一起:0-19,20-49,50-74和75-100。

然后,我想将这些群体标记为“低风险”(0:19),“某些风险”(20-49),“高风险”(50-74)和“实质性风险”(75-100) )。

我想将这些分组,以便我可以使用原始“Labeled_Data”数据框中的其他变量对此变量运行回归。

如果它使我对“PCT_Stocks_MF_1”的描述更清楚,这里是变量的描述:

  

描述(PCT_Stocks_MF_1)   PCT_Stocks_MF_1:股票或互助基金的百分比-1         缺少独特的信息意味着.05 .10 .25      5121 10879 45 0.92 229.4 30 50 70       .50 .75 .90 .95       100 100 998 998

最低:1 2 3 4 5,最高:98 99 100 998 999

  

类(PCT_Stocks_MF_1)   [1]“标记”“整数”

感谢您提供任何帮助

1 个答案:

答案 0 :(得分:0)

cut()示例:

# Generate some sample data
values <- as.integer(c(runif(48, 0, 100), 998, 999))

# Filter out values greater than 100
results <- data.frame(values=values[values<=101])

# Assign risk category
results$risk <- cut(results$values, c(0, 19, 49, 74, 100), 
                    labels=c("Low", "Some", "High", "Substantial" ), include.lowest=T)

要按组运行回归(或调用其他功能),请查看dplyr包。