删除“没有休息空间”

时间:2017-04-18 10:55:26

标签: r regex gsub

我的文字中的某些位置有 <U+00A0> 。我已经尝试过这样删除它:

Text<- gsub("<U+00A0>"," ",Text)

但是,如果它出现在单词面前,这似乎只能起作用。它仍然保留在文本中:

"In<U+00A0>conclusion"

我希望你能理解我想说的话。

3 个答案:

答案 0 :(得分:1)

我认为您必须使用'+'

逃避\\标志
Text<- gsub(pattern = "<U\\+00A0>"," ",Text)


> Text <- "In<U+00A0>conclusion"
> gsub(pattern = "<U\\+00A0>"," ",Text)
[1] "In conclusion"

答案 1 :(得分:0)

这不如wolf_wue的答案好。但如果所有&#34; <U+00A0>&#34;在你的字符串的最后几位,你可以使用&#34; substr&#34;功能只保留你的其余字符串。

# head(WEA$Text)
# [1] "0.0<U+00A0>" "0.0<U+00A0>" "0.0<U+00A0>" "0.0<U+00A0>" "0.0<U+00A0>" 

Text =substr(Text, 1, nchar(WEA$Prcp)-8)
head(Text)
[1] "0.0" "0.0" "0.0" "0.0" "0.0" "0.0"

答案 2 :(得分:0)

正确的方法是使用\uXXXX语法,例如Text <- gsub("\u00A0", " ", Text)