Question

我有一个如下所示的数据集：

> visascore[239:250,]
# A tibble: 12 x 6
     num article_num paragraph_num date       word          score
   <int>       <int>         <int> <fct>      <chr>         <dbl>
 1    12           2             4 04/12/2017 future        0.228
 2    12           2             4 04/12/2017 priced       -0.280
 3    13           3             1 19/12/2017 summary       0.284
 4    13           3             1 19/12/2017 visa          0.741
 5    13           3             1 19/12/2017 losing       -0.587
 6    13           3             1 19/12/2017 payments      0.238
 7    13           3             1 19/12/2017 ma           -0.275
 8    13           3             1 19/12/2017 visa          0.741
 9    13           3             1 19/12/2017 acquisitions  0.416
10    14           3             2 19/12/2017 ma           -0.275
11    14           3             2 19/12/2017 visa          0.741
12    14           3             2 19/12/2017 access        0.376

我想要做的是在每篇文章（“article_num”）中对每个段落（“paragraph_num”）的“得分”列中的值进行SUM。有没有办法实现这个目标？我甚至想过通过对每个“num”变量求和（这基本上是所有段落的不间断序列并将它们分组到每篇文章中）来绕过这个但我不知道该怎么做。

Answer 1

library(dplyr)    
visascore %>%
       group_by(article_num, paragraph_num) %>%
       summarise(sum_by_art_para = sum(score))

为变量值和总和分数创建子集

1 个答案: