Question

我有pdf文件中的内容（从报纸段落中提取），例如新闻标题 - ＆＃34;这是最快的部门之一，也是不断发展的部门之一。＆＃34;。现在我想要一些程序或计算字符串中单词数量的东西。因此，当我运行它时，结果应该是：

单词出现的次数 --------- 单词

[1]这个 [1]是
[2]一 [2]的 [2]

等等。

我们将不胜感激。

Answer 1

对于这个例子：

k <- k %>% group_by(id, key) %>% summarise(value=toString(value)) %>% group_by(id) %>% spread(key,value)
##Source: local data frame [4 x 5]
##Groups: id [4]
##
##     id Dateofbirth Gender   Name                    Street
##* <dbl>       <chr>  <chr>  <chr>                     <chr>
##1     1        <NA>   Male Jasper                  Broadway
##2     2        <NA>   <NA>  Alice              Narrowstreet
##3     3        1841   Male  Peter Neverland, Treasureisland
##4     4        <NA>   <NA> Martin                      <NA>

请注意，您也可以使用str_split预先删除标点符号：

library(stringr)
library(data.table)

s <- " this is one of the fastest and one of the growing sector."

 ss <- data.frame(x=unlist( str_split(s, " ")))

 sss <- setDT(ss)[, .(freq = .N), x]

sss:

         x freq
 1:            1
 2:    this    1
 3:      is    1
 4:     one    2
 5:      of    2
 6:     the    2
 7: fastest    1
 8:     and    1
 9: growing    1
10: sector.    1

如何计算r语言

1 个答案: