Question

我需要使用gutenbergr包下载西班牙语书籍。问题在于，在所有西班牙语文本中，似乎都对特殊字符（例如á，ñ）进行了编码。

    > library(gutenbergr) 
    > Text<-gutenberg_download(36558)
    > Text[,2]
# A tibble: 638 x 1
   text                              
   <chr>                             
 1 [imagen]                          
 2 ""                                
 3 "Rat\xf3n P\xe9rez"               
 4 ""                                
 5 CUENTO INFANTIL                   
 6 ""                                
 7 Por el P. LUIS COLOMA. S. J..     
 8 "de la Real Academia Espa\xf1ola."
 9 ""                                
10 Dibujos de M. Pedrero.
# ... with 628 more rows

问题是编码不是100％一致的。例如，在上面可以看到，在“Ratón”中，“ó”被编码为\ xf3，但是如果您在文本中单击，则可以找到以下内容：

Text[26:27,]
# A tibble: 2 x 2
  gutenberg_id text                                                               
         <int> <chr>                                                              
1        36558 "\xc1 SU ALTEZA REAL EL SERENISIMO SE\xd1OR PR\xcdNCIPE DE ASTURIA~
2        36558 "DE BORB\xd3N Y BATTENBERG."

..其中“Borbón”中的“ó”现在为\ xd3。

我尝试用gsub替换，但是没有用：

Text$text<-gsub("\\\xf3", "ó", Text$text)
> Text[,2]
# A tibble: 638 x 1
   text                              
   <chr>                             
 1 [imagen]                          
 2 ""                                
 3 "Rat\xf3n P\xe9rez"               
 4 ""                                
 5 CUENTO INFANTIL                   
 6 ""                                
 7 Por el P. LUIS COLOMA. S. J..     
 8 "de la Real Academia Espa\xf1ola."
 9 ""                                
10 Dibujos de M. Pedrero.            
# ... with 628 more rows

关于如何用正确的字符（例如á，ó）或标准字符（例如a，o）替换特殊字符的任何想法？

从古腾堡中检索西班牙语书籍

0 个答案: