我需要使用gutenbergr
包下载西班牙语书籍。问题在于,在所有西班牙语文本中,似乎都对特殊字符(例如á,ñ)进行了编码。
> library(gutenbergr)
> Text<-gutenberg_download(36558)
> Text[,2]
# A tibble: 638 x 1
text
<chr>
1 [imagen]
2 ""
3 "Rat\xf3n P\xe9rez"
4 ""
5 CUENTO INFANTIL
6 ""
7 Por el P. LUIS COLOMA. S. J..
8 "de la Real Academia Espa\xf1ola."
9 ""
10 Dibujos de M. Pedrero.
# ... with 628 more rows
问题是编码不是100%一致的。例如,在上面可以看到,在“Ratón”中,“ó”被编码为\ xf3,但是如果您在文本中单击,则可以找到以下内容:
Text[26:27,]
# A tibble: 2 x 2
gutenberg_id text
<int> <chr>
1 36558 "\xc1 SU ALTEZA REAL EL SERENISIMO SE\xd1OR PR\xcdNCIPE DE ASTURIA~
2 36558 "DE BORB\xd3N Y BATTENBERG."
..其中“Borbón”中的“ó”现在为\ xd3。
我尝试用gsub
替换,但是没有用:
Text$text<-gsub("\\\xf3", "ó", Text$text)
> Text[,2]
# A tibble: 638 x 1
text
<chr>
1 [imagen]
2 ""
3 "Rat\xf3n P\xe9rez"
4 ""
5 CUENTO INFANTIL
6 ""
7 Por el P. LUIS COLOMA. S. J..
8 "de la Real Academia Espa\xf1ola."
9 ""
10 Dibujos de M. Pedrero.
# ... with 628 more rows
关于如何用正确的字符(例如á,ó)或标准字符(例如a,o)替换特殊字符的任何想法?