如何找出R中语料库中的所有大写单词

时间:2016-09-14 11:51:14

标签: r text-mining

所以,我有一个文档语料库,我需要在R中的所有文档中找到所有大写字母(即,该单词中的每个字符都是大写字母)。我不知道如何找到它。我已经查看了R中的文本挖掘'tm'包,并且没有这样的函数可以找到它。

输入字符串:"Russia Is THE BiggEST cOUNTRY"

需要输出:"THE"

如何使用“tm”包执行此操作?

3 个答案:

答案 0 :(得分:2)

您可以使用gregexpr和regmatches:

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"

数据

abc <- "Russia Is THE BiggEST cOUNTRY"

答案 1 :(得分:2)

使用stringr(如果你想找到所有这些单词(作为向量),而不仅仅是第一个单词):

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD"
library(stringr)
unlist(str_match_all(s, "\\b[A-Z]+\\b"))
[1] "THE"   "IN"    "WORLD"

答案 2 :(得分:1)

尝试使用正则表达式。

sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"