所以,我有一个文档语料库,我需要在R中的所有文档中找到所有大写字母(即,该单词中的每个字符都是大写字母)。我不知道如何找到它。我已经查看了R中的文本挖掘'tm'包,并且没有这样的函数可以找到它。
输入字符串:"Russia Is THE BiggEST cOUNTRY"
需要输出:"THE"
如何使用“tm”包执行此操作?
答案 0 :(得分:2)
您可以使用gregexpr和regmatches:
unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"
abc <- "Russia Is THE BiggEST cOUNTRY"
答案 1 :(得分:2)
使用stringr(如果你想找到所有这些单词(作为向量),而不仅仅是第一个单词):
s = "Russia Is THE BiggEST cOUNTRY IN the WORLD"
library(stringr)
unlist(str_match_all(s, "\\b[A-Z]+\\b"))
[1] "THE" "IN" "WORLD"
答案 2 :(得分:1)
尝试使用正则表达式。
sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"