R-删除字符串中的重音符号

时间:2014-10-15 22:42:03

标签: r encoding utf-8 character-encoding

我有一个带有html文件的库,在files_dep中我有它们的列表。我需要将存储在其中的文本转换为表格,但问题是它们有重音和ñ。我写这篇文章阅读它并且工作正常。

for (i in files_dep) {
  text<-readLines(i,encoding="UTF-8")
  aa<-paste(text, collapse=' ')
  if (grepl(empieza,aa) & grepl(termina,aa)) {
    nota=gsub(paste0("(^.*", empieza, ")(.*?)(", termina, ".*)$"), "\\2", aa)
    #nota<-iconv(nota,to="ASCII//TRANSLIT")
    df<-rbind(df, data.frame(fileName=i, nota=nota)) }}  

我可以阅读以下内容:

Este sábado enfrentarán a un equipo.

所以我只需要删除重音符号。 我试着取消注释

nota <- iconv(nota,to="ASCII//TRANSLIT")

但我明白了:

 Este sA!bado se enfrentarA!n a un equipo. 

所以,我不知道问题是什么。

另外,我需要删除重音和所有特殊字符。感谢

版:

我在循环结束时将最后一个数据存储在nota中。这就是我所看到的:

nota
[1] "                         <p>La inclusión del seleccionado argentino en el viejo Tres Naciones significó, hace tres años, la confirmación de que el nivel del rugby argentino estaba a la altura de los grandes equipos del planeta, aunque se preveía que esa transición entre ser un equipo <em>del montón</em>&nbsp;a formar parte de la<em> elite </em>no iba a ser sencilla<em>. </em>Hoy, luego de dos años de competencia en el Rugby Championship, Los Pumas están cada vez más cerca de dar el batacazo y conseguir su primer triunfo en la historia del torneo.</p><p>

如果我这样做:

iconv(nota,to="ASCII//TRANSLIT")

我明白了:

iconv(nota,to="ASCII//TRANSLIT")
[1] "                         <p>La inclusiA3n del seleccionado argentino en el viejo Tres Naciones significA3, hace tres aA?os, la confirmaciA3n de que el nivel del rugby argentino estaba a la altura de los grandes equipos del planeta, aunque se preveA-a que esa transiciA3n entre ser un equipo <em>del montA3n</em>&nbsp;a formar parte de la<em> elite </em>no iba a ser sencilla<em>. </em>Hoy, luego de dos aA?os de competencia en el Rugby Championship, Los Pumas estA!n cada vez mA!s cerca de dar el batacazo y conseguir su primer triunfo en la historia del torneo.

2 个答案:

答案 0 :(得分:17)

当我遇到类似的问题时,我使用了stri_trans_general包中的函数stringi。例如,您可以尝试:stri_trans_general(nota,"Latin-ASCII")

答案 1 :(得分:0)

我使用此功能

 rm_accent <- function(str,pattern="all") {
   if(!is.character(str))
    str <- as.character(str)

  pattern <- unique(pattern)

  if(any(pattern=="Ç"))
    pattern[pattern=="Ç"] <- "ç"

  symbols <- c(
    acute = "áéíóúÁÉÍÓÚýÝ",
    grave = "àèìòùÀÈÌÒÙ",
    circunflex = "âêîôûÂÊÎÔÛ",
    tilde = "ãõÃÕñÑ",
    umlaut = "äëïöüÄËÏÖÜÿ",
    cedil = "çÇ"
  )

  nudeSymbols <- c(
    acute = "aeiouAEIOUyY",
    grave = "aeiouAEIOU",
    circunflex = "aeiouAEIOU",
    tilde = "aoAOnN",
    umlaut = "aeiouAEIOUy",
    cedil = "cC"
  )

  accentTypes <- c("´","`","^","~","¨","ç")

  if(any(c("all","al","a","todos","t","to","tod","todo")%in%pattern)) # opcao retirar todos
    return(chartr(paste(symbols, collapse=""), paste(nudeSymbols, collapse=""), str))

  for(i in which(accentTypes%in%pattern))
    str <- chartr(symbols[i],nudeSymbols[i], str) 

  return(str)
}