Question

嗨，我正在努力解决一个问题，因为几天以来一直没有找到任何答案。

假设我有一个包含列的数据集：Country，Population。 Country位于Numbers中，因此原始数据集如下所示：

df <- data.frame(country=c(1,2,3,4,5,6), population=c(10000,20000,30000,4000,50000,60000))
df
  country population
1       1      10000
2       2      20000
3       3      30000
4       4       4000
5       5      50000
6       6      60000

我希望国家成为具有以下水平的因素：法国，德国，加拿大，美国，印度，中国和欧洲，美国，亚洲。所以说一个因素combinig：

df$country <- factor(df$country, labels = c("France", "Germany", "Canada", "USA", "India", "Asia"))
df
  country population
1  France      10000
2 Germany      20000
3  Canada      30000
4     USA       4000
5   India      50000
6    Asia      60000

和

df$country <- cut(df$country, breaks = c(0,2,4,6),labels = c("Europe", "America", "Asia"))
df
  country population
1  Europe      10000
2  Europe      20000
3 America      30000
4 America       4000
5    Asia      50000
6    Asia      60000

我的目标是做一些事情：

tapply(df$population, df$country, sum)

结果如下：

France Germany Canada  USA India China Europe America    Asia 
 10000   20000  30000 4000 50000 60000 30000    34000  110000

有没有办法解决这个问题，而没有在数据框中创建第三列？我希望这是可以理解的，我的问题是什么。我已经尝试了interaction()，但这不是我想要的。

Answer 1

因此，plyr-Package中的以下函数将您的数据帧划分为子数据帧（每个国家/地区一个子数据帧），然后汇总总体值。 t函数只是横穿你的数据框。

> library(plyr)
> neu <- ddply(df, .(country), Summe = sum(population))
> t(neu)

具有重叠级别范围的R因子

1 个答案: