如何针对R中的多个变量优化仿真?

时间:2020-05-26 05:33:31

标签: r optimization random simulation sampling

我有一个这样组织的数据框:df <-数据框(个人,组名,Z1,Z2,Z3)。在我的数据集中,每个人都是一个小组的成员。我只对一定数量的数据感兴趣(例如25000中的15000)。我的数据集中有太多零。我想应用两种不同的模拟:

  1. 找到均值(Z1)〜1的“个体”的所有可能组合,并找到Z2和Z3的范围。
  2. 查找均值(Z1),均值(Z2)和均值(Z3)〜1的“个体”的所有可能组合

Z1 Histogram的直方图。 Z1的箱线图显示了太多的异常值Boxplot。要概述我的数据集:

最低第一区中位数第三区最高 0.000 0.010 0.060 1.854 0.470 108.130

我尝试使用lapply函数进行仿真并为数据集提供一些速率(Z = Z1):

LO<- lapply(1:5000, function(i){sample(Z,15000,replace=TRUE, prob=1/(Z+8)+(0.2*Z))})
MEANS=unlist(lapply(LO, mean))
hist(MEANS)

这样,我必须手动调整“概率”才能使直方图集中在1上。这是否是回答第一个问题的好方法?然后针对第二个问题,如何优化3个变量的仿真?我应该使用if循环吗?附带的问题是:如何根据每个组的人口权衡我的数据集(人口越高,在我的15000个样本中从该组中选择个体的可能性就越高)。

0 个答案:

没有答案