我有一个大型数据库,我想从中创建一个boxplot:
数据:test.hospital
y:测试结果(%):总共1500个样本
x1:不同年份(2011-2017)
x2:不同的医院(30个不同的医院名称)
各医院的样本量差异很大,因此在某些情况下实际上数据太少,无法对数据说些什么。因此,我想从我的箱线图中排除样本量<15的所有医院。
所以我想做的是创建一个额外的行,其频率为医院采样的时间,并使用该行排除我的箱图的低样本量。
你可能得到的是我对R很新,所以对大多数人来说这是可能的。一个非常简单的问题......我真的很喜欢它的答案......!
非常感谢你:)
答案 0 :(得分:0)
尝试使用compress {
tarGz: {
options: {
archive: './target/dir.tgz'
},
files: [{
cwd: './target/someDirToCompress',
expand: true,
src: './**',
dest: './'
}]
}
}
包。 dplyr
有助于区分医院,group_by
对其进行统计,mutate
选择至少有15次观察的医院。 filter
是用于连接函数的管道符号。
%>%
现在使用install.packages(dplyr)
library(dplyr)
test.hospital.filtered <- group_by(test.hospital, x2) %>%
mutate(sampled_count = n()) %>%
filter(sampled_count >= 15)
创建箱图。年份在x轴上,测试结果在y轴上,显示过滤的医院。
ggplot