我正在尝试使用R中的cut()
函数将连续变量分组到存储桶中,如下所示:
as.character(cut(ORIG_AMT, breaks = c(-Inf, 0, 25000, 50000, 75000, 100000, 125000, 150000, 175000, 200000, 250000, 300000, 350000, 418000, Inf)
, labels = c('Missing', '[0-25k)', '[25k-50k)', '[50k-75k)', '[75k-100k)', '[100k-125k)', '[125k-150k)','[150k-175k)', '[175k-200k)', '[200k-250k)', '[250k-300k)', '[300k-350k)', '[350k-418k)', '[418k+)'), right = FALSE, ordered = TRUE))
但是,缺少值。我似乎无法在网上找到解决此问题的任何地方。理想情况下,缺失值将全部分组到'Missing'
桶中。
最终,我想在这些存储桶中采用加权平均值。如果有更好的方法来解决这个问题而不是cut()
和xtab()
,我会对它开放!