查找以特定字符开头和结尾的字符串

时间:2017-06-07 11:12:28

标签: r regex unicode

我正在使用来自twitter的数据开展文本挖掘项目。在我的数据框中,许多单词被转换为Unicode字符,例如

  

<U+0E2B><U+0E25><U+0E07><U+0E1E>

我想收集上面的每个转换后的单词并将它们放入一个大字符串中,这样我就可以单独处理它们了。

有什么方法可以找到所有以<U+开头并以>结尾的字符串使用R?

1 个答案:

答案 0 :(得分:1)

你的要求有点不精确,所以我冒昧地对你想要的输出做出一些假设。

text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p> 
         <U+0E2B><U+0E25><U+0E07><U+0E1E> </p> some more words"

regmatches(text, gregexpr("<U\\+[0-9A-Z]{4}>", text))
# "<U+0E2B>" "<U+0E25>" "<U+0E07>" "<U+0E1E>"