Question

我正在使用来自twitter的数据开展文本挖掘项目。在我的数据框中，许多单词被转换为Unicode字符，例如

<U+0E2B><U+0E25><U+0E07><U+0E1E>

我想收集上面的每个转换后的单词并将它们放入一个大字符串中，这样我就可以单独处理它们了。

有什么方法可以找到所有以<U+开头并以>结尾的字符串使用R？

Answer 1

你的要求有点不精确，所以我冒昧地对你想要的输出做出一些假设。

text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p> 
         <U+0E2B><U+0E25><U+0E07><U+0E1E> </p> some more words"

regmatches(text, gregexpr("<U\\+[0-9A-Z]{4}>", text))
# "<U+0E2B>" "<U+0E25>" "<U+0E07>" "<U+0E1E>"

查找以特定字符开头和结尾的字符串

1 个答案: