Question

我有一个这样组织的数据框：df <-数据框（个人，组名，Z1，Z2，Z3）。在我的数据集中，每个人都是一个小组的成员。我只对一定数量的数据感兴趣（例如25000中的15000）。我的数据集中有太多零。我想应用两种不同的模拟：

Z1 Histogram的直方图。 Z1的箱线图显示了太多的异常值Boxplot。要概述我的数据集：

最低第一区中位数第三区最高 0.000 0.010 0.060 1.854 0.470 108.130

我尝试使用lapply函数进行仿真并为数据集提供一些速率（Z = Z1）：

LO<- lapply(1:5000, function(i){sample(Z,15000,replace=TRUE, prob=1/(Z+8)+(0.2*Z))})
MEANS=unlist(lapply(LO, mean))
hist(MEANS)

这样，我必须手动调整“概率”才能使直方图集中在1上。这是否是回答第一个问题的好方法？然后针对第二个问题，如何优化3个变量的仿真？我应该使用if循环吗？附带的问题是：如何根据每个组的人口权衡我的数据集（人口越高，在我的15000个样本中从该组中选择个体的可能性就越高）。