我有一个这样组织的数据框:df <-数据框(个人,组名,Z1,Z2,Z3)。在我的数据集中,每个人都是一个小组的成员。我只对一定数量的数据感兴趣(例如25000中的15000)。我的数据集中有太多零。我想应用两种不同的模拟:
Z1 Histogram的直方图。 Z1的箱线图显示了太多的异常值Boxplot。要概述我的数据集:
最低第一区中位数第三区最高 0.000 0.010 0.060 1.854 0.470 108.130
我尝试使用lapply函数进行仿真并为数据集提供一些速率(Z = Z1):
LO<- lapply(1:5000, function(i){sample(Z,15000,replace=TRUE, prob=1/(Z+8)+(0.2*Z))})
MEANS=unlist(lapply(LO, mean))
hist(MEANS)
这样,我必须手动调整“概率”才能使直方图集中在1上。这是否是回答第一个问题的好方法?然后针对第二个问题,如何优化3个变量的仿真?我应该使用if循环吗?附带的问题是:如何根据每个组的人口权衡我的数据集(人口越高,在我的15000个样本中从该组中选择个体的可能性就越高)。