R删除以U开头的标签

时间:2016-10-23 04:49:05

标签: r regex string

如何删除<U+0924><U+0930><U+0938><U+0902><U+0917><U+0924>等标签 以句子形式出现。 Via- <U+0924><U+0930><U+094D><U+0915><U+0938><U+0902><U+0917><U+0924> - Tarksangat ~<U+0938><U+092F><U+094D><U+092F><U+0926> <U+092E><U+0902><U+095B><U+0930> <U+0907><U+092E><U+093E><U+092E>

我需要输出:Via- Tarksangat

任何人都可以帮助我吗?谢谢!

2 个答案:

答案 0 :(得分:2)

希望这可能有用

http://localhost:3000

数据

ab <- unlist(strsplit(abc,"[[:punct:]]"))
ab <- gsub("[[:punct:]]|[0-9]","",ab)

ab <- paste0(ab[nchar(ab)>2],collapse="-")
[1] "Via- Tarksangat "

答案 1 :(得分:0)

试试这个

<U.*?>

并替换为空字符串

Explnation

你可以试试这个:

re = /<U.*?>/
str = 'asdfasdf <U+0924><U+0930><U+0938><U+0902><U+0917> tsdfasf <U+0924> 1sadfasdf a2sdf 3sdafasdf <U+0924><U+0930>5<U+0938> 4asdfasdf <U+0902><U+0917><U+0924>'
subst = ''

result = str.gsub(re, subst)

# Print the result of the substitution
puts result