Question

我有一个数据框，“Labeled_Data”。此数据框中的一个变量称为“PCT_Stock_MF_1”。此变量PCT_Stock_MF_1具有我想要使用的值0-100，以及我想忽略的值998和999。我想将这些值组合在一起：0-19,20-49,50-74和75-100。

然后，我想将这些群体标记为“低风险”（0:19），“某些风险”（20-49），“高风险”（50-74）和“实质性风险”（75-100））。

我想将这些分组，以便我可以使用原始“Labeled_Data”数据框中的其他变量对此变量运行回归。

如果它使我对“PCT_Stocks_MF_1”的描述更清楚，这里是变量的描述：

描述（PCT_Stocks_MF_1） PCT_Stocks_MF_1：股票或互助基金的百分比-1 缺少独特的信息意味着.05 .10 .25 5121 10879 45 0.92 229.4 30 50 70 .50 .75 .90 .95 100 100 998 998

最低：1 2 3 4 5，最高：98 99 100 998 999

类（PCT_Stocks_MF_1） [1]“标记”“整数”

感谢您提供任何帮助

Answer 1

cut（）示例：

# Generate some sample data
values <- as.integer(c(runif(48, 0, 100), 998, 999))

# Filter out values greater than 100
results <- data.frame(values=values[values<=101])

# Assign risk category
results$risk <- cut(results$values, c(0, 19, 49, 74, 100), 
                    labels=c("Low", "Some", "High", "Substantial" ), include.lowest=T)

要按组运行回归（或调用其他功能），请查看dplyr包。

R：如何创建/标记变量

1 个答案: