如何基于另一个数据集的变量分布来匹配一个数据集?

时间:2020-09-14 10:02:35

标签: r distribution

比方说,我有两个具有相似变量但分布不同的数据集。在下面的示例中,数据集a的变量var1的平均值为10,标准差为4。数据集b的变量var1的平均值为8和4的标准差。

a <- data.frame(id=1:500,var1=rnorm(500,10,4),type="a")

b <- data.frame(id=1:300,var1=rnorm(300,8,4),type="b")

rbind(a,b) %>%
  ggplot(aes(x=type,y=var1)) +
  geom_boxplot()

是否可以过滤数据集b以匹配数据集a的{​​{1}}分布?当我说var1时,均值和标准差应该相似(不一定相等)

我尝试使用match包来匹配a和b数据集,但它还会过滤数据集MatchIt中的某些条目。

有什么主意吗?

谢谢

编辑>

这是aa密度的真实形状(根据我的数据)。 b是红色,a是蓝色

enter image description here

0 个答案:

没有答案