我正在使用来自twitter的数据开展文本挖掘项目。在我的数据框中,许多单词被转换为Unicode字符,例如
<U+0E2B><U+0E25><U+0E07><U+0E1E>
我想收集上面的每个转换后的单词并将它们放入一个大字符串中,这样我就可以单独处理它们了。
有什么方法可以找到所有以<U+
开头并以>
结尾的字符串使用R?
答案 0 :(得分:1)
你的要求有点不精确,所以我冒昧地对你想要的输出做出一些假设。
text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p>
<U+0E2B><U+0E25><U+0E07><U+0E1E> </p> some more words"
regmatches(text, gregexpr("<U\\+[0-9A-Z]{4}>", text))
# "<U+0E2B>" "<U+0E25>" "<U+0E07>" "<U+0E1E>"