如何计算r语言

时间:2016-09-01 15:13:14

标签: r string count

我有pdf文件中的内容(从报纸段落中提取),例如新闻标题 - "这是最快的部门之一,也是不断发展的部门之一。"。现在我想要一些程序或计算字符串中单词数量的东西。因此,当我运行它时,结果应该是:

单词出现的次数 --------- 单词

[1]这个 [1]是
[2]一 [2]的 [2]

等等。

我们将不胜感激。

1 个答案:

答案 0 :(得分:4)

对于这个例子:

k <- k %>% group_by(id, key) %>% summarise(value=toString(value)) %>% group_by(id) %>% spread(key,value)
##Source: local data frame [4 x 5]
##Groups: id [4]
##
##     id Dateofbirth Gender   Name                    Street
##* <dbl>       <chr>  <chr>  <chr>                     <chr>
##1     1        <NA>   Male Jasper                  Broadway
##2     2        <NA>   <NA>  Alice              Narrowstreet
##3     3        1841   Male  Peter Neverland, Treasureisland
##4     4        <NA>   <NA> Martin                      <NA>

请注意,您也可以使用str_split预先删除标点符号:

library(stringr)
library(data.table)

s <- " this is one of the fastest and one of the growing sector."

 ss <- data.frame(x=unlist( str_split(s, " ")))

 sss <- setDT(ss)[, .(freq = .N), x]

sss:

         x freq
 1:            1
 2:    this    1
 3:      is    1
 4:     one    2
 5:      of    2
 6:     the    2
 7: fastest    1
 8:     and    1
 9: growing    1
10: sector.    1