数据

Question

所以，我有一个文档语料库，我需要在R中的所有文档中找到所有大写字母（即，该单词中的每个字符都是大写字母）。我不知道如何找到它。我已经查看了R中的文本挖掘'tm'包，并且没有这样的函数可以找到它。

输入字符串："Russia Is THE BiggEST cOUNTRY"

需要输出："THE"

如何使用“tm”包执行此操作？

Answer 1

您可以使用gregexpr和regmatches：

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"

abc <- "Russia Is THE BiggEST cOUNTRY"

Answer 2

使用stringr（如果你想找到所有这些单词（作为向量），而不仅仅是第一个单词）：

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD"
library(stringr)
unlist(str_match_all(s, "\\b[A-Z]+\\b"))
[1] "THE"   "IN"    "WORLD"

Answer 3

尝试使用正则表达式。

sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"