好的,我不知道为什么我无法弄清楚如何做到这一点。我知道它必须相当简单。
我有一个由学校(COMBOKEY)和学区(LEAID)组成的大型数据框。我需要计算每个学区的学校数量,以便我可以计算每个学区的平均学校数量。以下是数据结构的示例:
COMBOKEY LEAID
13745 1037
13747 1037
13753 1037
13756 1037
13757 1037
13760 1038
13761 1038
13762 1039
13763 1039
13770 1040
13771 1040
13776 1041
13778 1041
13781 1041
13788 1043
13790 1043
或者,这是r代码中的一个示例:
head(cbind(Tot_CRDC1$COMBOKEY, Tot_CRDC1$LEAID))
[,1] [,2]
[1,] 1 1
[2,] 2 1
[3,] 3 1
[4,] 7 2
[5,] 8 2
[6,] 11 2
非常感谢您的耐心帮助。与此同时,我会继续在论坛上搜索一个对我的新手自己有意义的解决方案,因为我知道这必须以无数种方式回答。
以下是使用聚合返回NAs的尝试:
head(aggregate(COMBOKEY ~ LEAID, Tot_CRDC1, mean, na.rm=TRUE))
LEAID COMBOKEY
1 0100005 NA
2 0100006 NA
3 0100007 NA
4 0100008 NA
5 0100011 NA
6 0100013 NA
答案 0 :(得分:3)
据我所知,每个学校都由一个数据线表示,那么table():
A<-table(LEAID)
mean(A)