我生成一个二进制数列表并将其放在data.frame中,然后生成10个列表作为包含不同顺序的10个数字的额外列:
n = 10
docs = data.frame(data=sample(c(0,1), n, replace = TRUE, prob=c(0.8, 0.2)))
docs$data = factor(docs$data)
levels(docs$data) = c("NR", "R")
# debug graph
plot(docs$data)
for (i in 2:10) {
docs[,i] = sample(docs$data, length(docs$data), replace = FALSE)
}
如何才能将分布应用于此抽样,以便我可以影响1在排名列表的开头而不是结尾出现的可能性?