比方说,我有两个具有相似变量但分布不同的数据集。在下面的示例中,数据集a
的变量var1
的平均值为10,标准差为4。数据集b
的变量var1
的平均值为8和4的标准差。
a <- data.frame(id=1:500,var1=rnorm(500,10,4),type="a")
b <- data.frame(id=1:300,var1=rnorm(300,8,4),type="b")
rbind(a,b) %>%
ggplot(aes(x=type,y=var1)) +
geom_boxplot()
是否可以过滤数据集b
以匹配数据集a
的{{1}}分布?当我说var1
时,均值和标准差应该相似(不一定相等)
我尝试使用match
包来匹配a和b数据集,但它还会过滤数据集MatchIt
中的某些条目。
有什么主意吗?
谢谢
编辑>
这是a
和a
密度的真实形状(根据我的数据)。 b
是红色,a
是蓝色