我是R初学者并且已经到了这一点,在那里我需要计算数据框中值的百分比,但经常按其他列值“分组”。
我有一个大约1000行的数据框,包含mediatype,version,collection(= year)和count(今年)。我可以过滤它们,只获得特定的mediatye:
trSpdf <- trS[trS$Mediatype == 'application/pdf',]
并获得以下示例性输出:
> trSpdf
Mediatype Version Collection Count
39 application/pdf -1 co2008 2.0
40 application/pdf -1 co2009 5.0
43 application/pdf 1 co2008 1.0
44 application/pdf 1 co2009 1.0
48 application/pdf 1.1 co2008 16.0
52 application/pdf 1.2 co2008 20.0
53 application/pdf 1.2 co2009 90.0
... (continuing) ...
我想要的是计算每个集合(=年)的每个版本与该集合中所有版本的百分比,因此对于此示例,结果应为:
5.12% of all versions in co2008 were version -1 (2.0 / total sum for co2008)
2.56% of all versions in co2008 were version 1 (1.0 / total sum for co2008)
...
93,75% of all versions in co2009 were version 1.2 (90.0 / total sum for co2009)
...
提前感谢我对如何解决这个问题的任何答案。
答案 0 :(得分:1)
您可以执行以下操作:
with(trSpdf, by(Version, Collection, FUN= function(x) round(prop.table(table(x))*100,2)))
您可以将FUN
更改为您希望输出显示的内容。
编辑:试试这个:
yearsums <- with(trSpdf, tapply(Count, Collection, sum))
mapply(FUN = function(x,y) x/yearsums[as.character(y)], trSpdf$Count, trSpdf$Collection)
我确信有更好的方法。
答案 1 :(得分:1)
首先,使用ave
添加一列,列出每Mediatype
和Collection
的总计数:
trS <- transform(trS, Tot.Count = ave(Count, Mediatype, Collection, FUN = sum))
然后,很容易明白如何计算百分比:
trS <- transform(trS, percentage = 100 * Count/Tot.Count)
或者如果您希望格式良好(例如“5.13%”),请使用sprintf
:
trS <- transform(trS, percentage = paste0(sprintf("%.2f", 100 * Count/Tot.Count),
"%"))