"CATARACT; #大腿骨~2010"
我需要使用大腿骨
在R中选择gsub
,它实际上是以&#
开头的后跟五位数的unicode,然后以;
结束
我知道如何使用以下方法摆脱这些unicode:
gsub("&#[0-9]+;","","CATARACT; #大腿骨~2010")
但是如何使用gsub
保留这些unicode? p>
我想要的输出是大腿骨
。
感谢您的回答,但如果模式并非总是如此,我需要拿起unicode,无论它们在哪里:
"CATARACT; #大腿骨~2010;CATARACT; #夨膀骩~2010"
答案 0 :(得分:1)
E.g。使用gregexpr
和regmatches
:
ex <- "CATARACT; #大腿骨~2010;CATARACT; #夨膀骩~2010"
m <- gregexpr("&#[0-9]+;", ex)
(r <- regmatches(ex, m))
# [[1]]
# [1] "大" "腿" "骨" "夨" "膀" "骩"
paste(r[[1]], collapse="")
# [1] "大腿骨夨膀骩"
答案 1 :(得分:0)
你可以尝试:
gsub("(^\\D*)((&#[0-9]+;)+)(.*$)", "\\2", x)