从古腾堡中检索西班牙语书籍

时间:2018-09-26 07:03:33

标签: r regex text-mining

我需要使用gutenbergr包下载西班牙语书籍。问题在于,在所有西班牙语文本中,似乎都对特殊字符(例如á,ñ)进行了编码。

    > library(gutenbergr) 
    > Text<-gutenberg_download(36558)
    > Text[,2]
# A tibble: 638 x 1
   text                              
   <chr>                             
 1 [imagen]                          
 2 ""                                
 3 "Rat\xf3n P\xe9rez"               
 4 ""                                
 5 CUENTO INFANTIL                   
 6 ""                                
 7 Por el P. LUIS COLOMA. S. J..     
 8 "de la Real Academia Espa\xf1ola."
 9 ""                                
10 Dibujos de M. Pedrero.
# ... with 628 more rows

问题是编码不是100%一致的。例如,在上面可以看到,在“Ratón”中,“ó”被编码为\ xf3,但是如果您在文本中单击,则可以找到以下内容:

Text[26:27,]
# A tibble: 2 x 2
  gutenberg_id text                                                               
         <int> <chr>                                                              
1        36558 "\xc1 SU ALTEZA REAL EL SERENISIMO SE\xd1OR PR\xcdNCIPE DE ASTURIA~
2        36558 "DE BORB\xd3N Y BATTENBERG."

..其中“Borbón”中的“ó”现在为\ xd3。

我尝试用gsub替换,但是没有用:

Text$text<-gsub("\\\xf3", "ó", Text$text)
> Text[,2]
# A tibble: 638 x 1
   text                              
   <chr>                             
 1 [imagen]                          
 2 ""                                
 3 "Rat\xf3n P\xe9rez"               
 4 ""                                
 5 CUENTO INFANTIL                   
 6 ""                                
 7 Por el P. LUIS COLOMA. S. J..     
 8 "de la Real Academia Espa\xf1ola."
 9 ""                                
10 Dibujos de M. Pedrero.            
# ... with 628 more rows

关于如何用正确的字符(例如á,ó)或标准字符(例如a,o)替换特殊字符的任何想法?

0 个答案:

没有答案