我有一个数据集,该数据集跟踪某些客户特征的销售额(logmove),并试图找到某个特征(收入)的四分位数范围。 我知道如何找到收入四分位数的值,但是我在互联网上找不到任何有关如何将数据细分为组以执行功能的信息。例如,我需要一个组,该组的销售额是收入的最低0-25%,销售额的25-50%,依此类推。
到目前为止,代码,但这不是我想要的
oj = read.csv("oj.csv")
dom = (subset(oj, brand == "dominicks"))
summary(dom$INCOME)
applyQuant = function(x){
cut(x, breaks = c(quantile(dom$INCOME, probs = seq(0,1, by = 0.25))), labels = c("Q1", "Q2", "Q3", "Q4"), include.lowest = TRUE)
}
dom.quant = sapply(dom$INCOME, applyQuant)
基本上,我需要根据四分位数建立四组收入(x变量),然后找到每个分位数范围的平均销售额(y值)