我有pdf文件中的内容(从报纸段落中提取),例如新闻标题 - "这是最快的部门之一,也是不断发展的部门之一。"。现在我想要一些程序或计算字符串中单词数量的东西。因此,当我运行它时,结果应该是:
单词出现的次数 --------- 单词
[1]这个
[1]是
[2]一
[2]的
[2]
等等。
我们将不胜感激。
答案 0 :(得分:4)
对于这个例子:
k <- k %>% group_by(id, key) %>% summarise(value=toString(value)) %>% group_by(id) %>% spread(key,value)
##Source: local data frame [4 x 5]
##Groups: id [4]
##
## id Dateofbirth Gender Name Street
##* <dbl> <chr> <chr> <chr> <chr>
##1 1 <NA> Male Jasper Broadway
##2 2 <NA> <NA> Alice Narrowstreet
##3 3 1841 Male Peter Neverland, Treasureisland
##4 4 <NA> <NA> Martin <NA>
请注意,您也可以使用str_split预先删除标点符号:
library(stringr)
library(data.table)
s <- " this is one of the fastest and one of the growing sector."
ss <- data.frame(x=unlist( str_split(s, " ")))
sss <- setDT(ss)[, .(freq = .N), x]
sss:
x freq
1: 1
2: this 1
3: is 1
4: one 2
5: of 2
6: the 2
7: fastest 1
8: and 1
9: growing 1
10: sector. 1