我打算为样本中的每个响应者分配两个条件之一(例如“治疗条件”或“对照条件”)。 应将样品的50%分配给第一个条件,其他50%分配给第二个条件。结果应记录在新列中(例如对照或治疗)
但是,样本具有多层次的结构(例如,受访者嵌套在类中)。
我不想简单地将整个样本随机分为两个条件,而是要考虑课程级别。 因此,每个类别的50%应该处于条件1,其余处于条件2。从逻辑上讲,当查看整个样本时,这也会导致大小相等的组。
更进一步,人们可以考虑较低的组级别,例如将每个班级的受访者性别都考虑在内(每个班级的50%的男性和50%的所有女性被分配为条件1,其余的则分配给条件1)。条件2)。
下面的代码显示了一个示例的简化示例,该示例包含100位受访者,5个类别(每个n = 20)以及随机数量的男性或女性。
当然,由于组大小不均,并非总是有50%到50%的可能性,但是在那种情况下,差异应该仅为1。
有什么想法可以在不手动拆分整个样本的情况下考虑不同的水平? (样本和dplyr的group_by的组合?)
set.seed(12345)
group<-sort(rep(c("class a","class b","class c","class d","class e"),
20))
sex<-sample(c("male", "female"), size=length(group), replace=TRUE)
test_frame<-cbind.data.frame(participant=1:length(group), group, sex)