如何删除葡萄牙语字符串的序号指示符

时间:2019-05-31 15:38:20

标签: r gsub stringr

葡萄牙语中的几个名称具有以下字符:

feminine ª
and 
masculine º 

我需要从字符串中删除它们,但是找不到正确的正则表达式。有人可以帮助我吗?

2 个答案:

答案 0 :(得分:0)

似乎很有效,很奇怪,但是有效。

stringr::str_replace_all(string = inep$NO_ENTIDADE, pattern = "�", replacement = "")

答案 1 :(得分:0)

葡萄牙语ASCII代码页为CP860。这些字符的代码是

  • 女性ª-\xa6
  • 男性º-\xa7

因此您可以iconv到您的区域设置,然后subgsub

fem <- iconv('\xa6', 'CP860', 'UTF-8')
masc <- iconv('\xa7', 'CP860', 'UTF-8')

s <- c('feminine ª', 'masculine º')

sub(fem, '', s)
#[1] "feminine "   "masculine º"

sub(masc, '', s)
#[1] "feminine ª" "masculine "