R中的条件比例/相对频率

时间:2017-09-08 03:51:26

标签: r dplyr tidyverse

是否有可用的功能可以简化此代码?想知道特定salesproduct week与其总销售额的比例

library(dplyr)

# Create data.frame
df <- tribble(
  ~week, ~product, ~sales,
  1L,    "A",      40,
  1L,    "B",      20,
  2L,    "A",      50,
  2L,    "C",      10
)

# Total sales
df_summ <- df %>%
  group_by(product) %>%
  summarise(total = sum(sales))

# Expected result
df_prop <- df %>%
  inner_join(df_summ) %>%
  mutate(prop = sales / total) %>%
  select(-sales, -total)  # optional

结果:

#> A tibble: 4 x 3
#>  week product     prop
#> <int>   <chr>    <dbl>
#>     1       A 0.444444
#>     1       B 1.000000
#>     2       A 0.555555
#>     2       C 1.000000

2 个答案:

答案 0 :(得分:3)

目前尚不清楚您的问题是关于某个功能(在这种情况下,您可能正在寻找prop.table)还是关于某种方法(例如将销售额与销售额之和除以同一步骤)。

无论如何,您应该能够通过以下方式获得所需的输出:

df %>% 
  group_by(product) %>% 
  mutate(prop = prop.table(sales)) %>% ## OR > mutate(prop = sales/sum(sales))
  select(-sales)
# # A tibble: 4 x 3
# # Groups:   product [3]
#    week product      prop
#   <int>   <chr>     <dbl>
# 1     1       A 0.4444444
# 2     1       B 1.0000000
# 3     2       A 0.5555556
# 4     2       C 1.0000000

在基础R中,您可以使用prop.table获取值(但采用不同的格式)。尝试:

prop.table(xtabs(sales ~ product + week, df), 1)
#        week
# product         1         2
#       A 0.4444444 0.5555556
#       B 1.0000000 0.0000000
#       C 0.0000000 1.0000000

在上文中,xtabs步骤只是重塑您的数据,然后使用基于行总数的比例prop.table

> xtabs(sales ~ product + week, df)
       week
product  1  2
      A 40 50
      B 20  0
      C  0 10

答案 1 :(得分:2)

它可以是 data.table 包的一个短行:

setDT(df)[, prop:=sales/sum(sales), by=product]

输出:

   week product sales      prop
1:   1L       A    40 0.4444444
2:   1L       B    20 1.0000000
3:   2L       A    50 0.5555556
4:   2L       C    10 1.0000000

或者,如果您正在寻找 dyplr 解决方案,那么@Brian建议:

df %>% group_by(product) %>% mutate(prop = sales/sum(sales))

输出:

# A tibble: 4 x 4
# Groups:   product [3]
   week product sales      prop
  <int>   <chr> <dbl>     <dbl>
1     1       A    40 0.4444444
2     1       B    20 1.0000000
3     2       A    50 0.5555556
4     2       C    10 1.0000000