Question

我有一个大的2列数据框（a），其中包含国家/地区代码（ALB，ALG，...）和年份。有数千个无序行，所以国家行经常和随机重复：

> a
 Country       Year
1     ALB      1991
2     ALB      1993
3     ALB      1994
4     ALB      1994
5     ALB      1996
6     ALG      1996
7     ALG      1971
8     AUS      1942
9     BLG      1998
10    BLG      1923
11    PAR      1957
12    PAR      1994
...

我试过了frequency <- data.frame(table(a[,1]))，但它做了一些非常奇怪的事情。它给了我这样的东西：

    Var1 Freq
1    AFG    1
2    ALB    3
3    ARG    1
4    AUS    1
5    AUT    3
6    AZE    2
7    BEL    3
8    BEN    2
9    BGD    3
10   BIH    4
...
129  ALB   33
130  ALG   73
131  AMS    7
132  ANC    1
133  AND    3
134  ANG   36
135  ANT    4
136  ARG  148
137  ARM   12
138  AUS  268
139  AUT  144
...

它将遍历大部分国家变量，然后再次浏览它们，为所有国家/地区提供1或2个条目。如果我添加频率，他们会给我各自国家的正确总数......但我不知道为什么他们会像这样分裂。

此外，这些国家在各种随机场所都会分裂。第一个实例是一个相对较小的数字（不超过20个，但有一个例外），而第二个实例通常但不总是较大的数字。某些国家/地区AFG仅在第一个实例中显示，而其他国家ANC仅在第二个实例中显示...

频率类别随表格函数随机分割

0 个答案: