使用R在数据中查找缩写

时间:2017-06-13 18:20:31

标签: r regex tidyr stringr tidytext

在我的数据(文本)中,有缩写。

是否有任何函数或代码在文本中搜索缩写?例如,检测3-4-5大写字母缩写并让我计算它们发生的频率。

非常感谢!

2 个答案:

答案 0 :(得分:1)

  

检测3-4-5大写字母缩写

您可以使用

\b[A-Z]{3,5}\b

请参阅regex demo

<强>详情:

  • \b - 字边界
  • [A-Z]{3,5} - 3,4或5个大写字母(使用[[:upper:]]来匹配ASCII以外的字母)
  • \b - 一个单词边界。

R demo online(利用@TheComeOnMan中的正则表达式出现次数代码)

abbrev_regex <- "\\b[A-Z]{3,5}\\b";
x <- "XYZ was seen at WXYZ with VWXYZ and did ABCDEFGH."
sum(gregexpr(abbrev_regex,x)[[1]] > 0)
## => [1] 3
regmatches(x, gregexpr(abbrev_regex, x))[[1]]
## => [1] "XYZ"   "WXYZ"  "VWXYZ"

答案 1 :(得分:0)

您可以使用正则表达式[A-Z]来匹配任何acapital字母的出现。如果您希望此模式重复3次,则可以将\1{3}添加到正则表达式中。考虑使用变量和循环来完成工作3到5次重复。