Question

我有一个大型数据库，我想从中创建一个boxplot：

数据：test.hospital

y：测试结果（％）：总共1500个样本

x1：不同年份（2011-2017）

x2：不同的医院（30个不同的医院名称）

各医院的样本量差异很大，因此在某些情况下实际上数据太少，无法对数据说些什么。因此，我想从我的箱线图中排除样本量<15的所有医院。

所以我想做的是创建一个额外的行，其频率为医院采样的时间，并使用该行排除我的箱图的低样本量。

你可能得到的是我对R很新，所以对大多数人来说这是可能的。一个非常简单的问题......我真的很喜欢它的答案......！

非常感谢你：）

Answer 1

尝试使用compress { tarGz: { options: { archive: './target/dir.tgz' }, files: [{ cwd: './target/someDirToCompress', expand: true, src: './**', dest: './' }] } }包。 dplyr有助于区分医院，group_by对其进行统计，mutate选择至少有15次观察的医院。 filter是用于连接函数的管道符号。

%>%

现在使用install.packages(dplyr) library(dplyr) test.hospital.filtered <- group_by(test.hospital, x2) %>% mutate(sampled_count = n()) %>% filter(sampled_count >= 15)创建箱图。年份在x轴上，测试结果在y轴上，显示过滤的医院。

ggplot

根据样本大小/频率排除boxplot中的类别

1 个答案: