在我的数据(文本)中,有缩写。
是否有任何函数或代码在文本中搜索缩写?例如,检测3-4-5大写字母缩写并让我计算它们发生的频率。
非常感谢!
答案 0 :(得分:1)
检测3-4-5大写字母缩写
您可以使用
\b[A-Z]{3,5}\b
请参阅regex demo
<强>详情:
\b
- 字边界[A-Z]{3,5}
- 3,4或5个大写字母(使用[[:upper:]]
来匹配ASCII以外的字母)\b
- 一个单词边界。 R demo online(利用@TheComeOnMan中的正则表达式出现次数代码)
abbrev_regex <- "\\b[A-Z]{3,5}\\b";
x <- "XYZ was seen at WXYZ with VWXYZ and did ABCDEFGH."
sum(gregexpr(abbrev_regex,x)[[1]] > 0)
## => [1] 3
regmatches(x, gregexpr(abbrev_regex, x))[[1]]
## => [1] "XYZ" "WXYZ" "VWXYZ"
答案 1 :(得分:0)
您可以使用正则表达式[A-Z]
来匹配任何acapital字母的出现。如果您希望此模式重复3次,则可以将\1{3}
添加到正则表达式中。考虑使用变量和循环来完成工作3到5次重复。