我寻求R代码的指导,以根据调查数据进行概率计算。该调查要求受访者从他们寻求建议的频率的五个描述中选择(下面数据框中的“频率”变量)。选择每个描述的受访者数量是“受访者”变量,我为每个频率假设的最大值是“max.year.est”变量。
use <- data.frame(frequency = c("rarely; less than once per quarter",
"very occasionally; about every other month",
"occasionally; about once per month",
"fairly frequently; more than once per month",
"very frequently; once a week or more"),
respondents = c(50, 40, 30, 20, 10),
max.year.est = c(3, 6, 12, 18, 78))
dplyr
调用将三列变为使用数据框,每个列在响应者组(i)乘以每个范围的最大数量后,每年呈现受访者组的建议请求总数 - 这使得关于两个最频繁范围顶部的假设; (ii)在最大要求的中点进行更合理的中间假设; (iii)40%的mean.requests,一个数字从帽子中拉出来,因为似乎合理的是较低数量的请求在每个范围内比较高的数字更常见。
use %>% group_by(frequency) %>%
mutate(max.requests = respondents * max.year.est) %>%
mutate(mean.requests = 0.5*max.requests) %>%
mutate(lower.requests = 0.4*max.requests)
如果我们假设每个范围内的年度建议请求都以合理的方式分配,更多的受访者在范围内以较小的数量发出请求,而在向上移动范围时则较少,那么统计方法和R代码是什么(泊松分布?)在给定上述假设的情况下,在每个范围内得出可预见数量的年度总要求?
感谢您的意见和回答。