Question

好的，我不知道为什么我无法弄清楚如何做到这一点。我知道它必须相当简单。

我有一个由学校（COMBOKEY）和学区（LEAID）组成的大型数据框。我需要计算每个学区的学校数量，以便我可以计算每个学区的平均学校数量。以下是数据结构的示例：

COMBOKEY  LEAID
13745     1037
13747     1037
13753     1037
13756     1037
13757     1037
13760     1038
13761     1038
13762     1039
13763     1039
13770     1040
13771     1040
13776     1041
13778     1041
13781     1041
13788     1043
13790     1043

或者，这是r代码中的一个示例：

head(cbind(Tot_CRDC1$COMBOKEY, Tot_CRDC1$LEAID))

     [,1] [,2]
[1,]    1    1
[2,]    2    1
[3,]    3    1
[4,]    7    2
[5,]    8    2
[6,]   11    2

非常感谢您的耐心帮助。与此同时，我会继续在论坛上搜索一个对我的新手自己有意义的解决方案，因为我知道这必须以无数种方式回答。

以下是使用聚合返回NAs的尝试：

head(aggregate(COMBOKEY ~ LEAID, Tot_CRDC1, mean, na.rm=TRUE))
    LEAID COMBOKEY
1 0100005       NA
2 0100006       NA
3 0100007       NA
4 0100008       NA
5 0100011       NA
6 0100013       NA

Answer 1

据我所知，每个学校都由一个数据线表示，那么table（）：

A<-table(LEAID)
mean(A)

嵌套数据中的观察总数

1 个答案: