嗨,我正在努力解决一个问题,因为几天以来一直没有找到任何答案。
假设我有一个包含列的数据集:Country,Population。 Country位于Numbers中,因此原始数据集如下所示:
df <- data.frame(country=c(1,2,3,4,5,6), population=c(10000,20000,30000,4000,50000,60000))
df
country population
1 1 10000
2 2 20000
3 3 30000
4 4 4000
5 5 50000
6 6 60000
我希望国家成为具有以下水平的因素:法国,德国,加拿大,美国,印度,中国和欧洲,美国,亚洲。 所以说一个因素combinig:
df$country <- factor(df$country, labels = c("France", "Germany", "Canada", "USA", "India", "Asia"))
df
country population
1 France 10000
2 Germany 20000
3 Canada 30000
4 USA 4000
5 India 50000
6 Asia 60000
和
df$country <- cut(df$country, breaks = c(0,2,4,6),labels = c("Europe", "America", "Asia"))
df
country population
1 Europe 10000
2 Europe 20000
3 America 30000
4 America 4000
5 Asia 50000
6 Asia 60000
我的目标是做一些事情:
tapply(df$population, df$country, sum)
结果如下:
France Germany Canada USA India China Europe America Asia
10000 20000 30000 4000 50000 60000 30000 34000 110000
有没有办法解决这个问题,而没有在数据框中创建第三列?
我希望这是可以理解的,我的问题是什么。
我已经尝试了interaction()
,但这不是我想要的。
答案 0 :(得分:0)
因此,plyr-Package中的以下函数将您的数据帧划分为子数据帧(每个国家/地区一个子数据帧),然后汇总总体值。 t函数只是横穿你的数据框。
> library(plyr)
> neu <- ddply(df, .(country), Summe = sum(population))
> t(neu)