Question

我正在寻找使用rvest包抓取法国网站。

library(rvest)
url <- "https://www.vins-bourgogne.fr/nos-vins-nos-terroirs/tous-les-bourgognes/toutes-les-appellations-de-bourgogne-a-votre-portee,2378,9172.html?&args=Y29tcF9pZD0xMzg2JmFjdGlvbj12aWV3RnVsbExpc3RlJmlkPSZ8"
s <- read_html(url)
s %>% html_nodes('#resultatListeAppellation .lien') %>% html_text()

我希望看到：

Aloxe-Corton (Appellation Village, VIGNOBLE DE LA CÔTE DE BEAUNE)
Auxey-Duresses (Appellation Village, VIGNOBLE DE LA CÔTE DE BEAUNE)
Bâtard-Montrachet (Appellation Grand Cru, VIGNOBLE DE LA CÔTE DE BEAUNE)

相反，我看到变音字符被破坏了（见下面的第3行）：

"Aloxe-Corton (Appellation Village, VIGNOBLE DE LA CÃ\u0094TE DE BEAUNE)"        
"Auxey-Duresses (Appellation Village, VIGNOBLE DE LA CÃ\u0094TE DE BEAUNE)"      
"BÃ¢tard-Montrachet (Appellation Grand Cru, VIGNOBLE DE LA CÃ\u0094TE DE BEAUNE)"

页面的源html显示它以utf-8编码。在html_text（）上使用guess_encoding（），它也表示utf-8（1.00置信度），或者置信度为0.73的windows-1252。将编码更改为windows-1252无关紧要：

"Aloxe-Corton (Appellation Village, VIGNOBLE DE LA CÃ”TE DE BEAUNE)"                                                                                
"Auxey-Duresses (Appellation Village, VIGNOBLE DE LA CÃ”TE DE BEAUNE)"                                                                              
"BÃ¢tard-Montrachet (Appellation Grand Cru, VIGNOBLE DE LA CÃ”TE DE BEAUNE)"

我在不同的法语网站（也编码为utf-8）上尝试了相同的代码：

x <- read_html('http://www.lemonde.fr/disparitions/article/2017/12/06/johnny-hallyday-c-etait-notre-seule-rock-star-la-france-perd-son-icone-du-rock_5225507_3382.html')
x %>% html_nodes('.taille_courante+ p , .croix_blanche , .tt2') %>% html_text()

现在我得到了变音符号等：

[1] "Johnny Hallyday : « C’était notre seule rock star », « La France perd son icône du rock »"                                                                                                                                                                                           
[2] "« Comme toute la France, mon cœur est brisé, a déclaré à l’Agence France-Presse (AFP) la chanteuse Sylvie Vartan, qui fut la première épouse de Johnny Hallyday, et mère de leur fils, David, né en 1966. J’ai perdu l’amour de ma jeunesse et rien ne pourra jamais le remplacer. »"

有关第一个网站出错的任何建议吗？或者如何解决？

Answer 1

这是一个奇怪的网站。它并非都是有效的UTF-8：

lines <- readLines(url, warn = FALSE)
all(utf8::utf8_valid(lines))
#> [1] FALSE

以下是违规行：

lines[!utf8::utf8_valid(lines)]
#> [1] "// on supprime l'\xe9ventuel cookie"                                                                             
#> [2] "//Ouverture et fermeture de l'encart r\xe9saux sociaux lors d'un clic sur le bouton"                             
#> [3] "//Cr\xe9ation de l'iframe facebook \xe0 la premi\xe8re ouverture de l'encart pour qu'elle fasse la bonne largeur"
#> [4] "//fermeture de l'encart r\xe9saux sociaux lors d'un clic ailleurs sur la page"

这些看似JavaScript代码中的注释。我怀疑read_html意识到该页面不是全部有效的UTF-8，并将编码解释为Windows-1252或其他一些8位编码方案。

你可以尝试通过删除有问题的JS段来解决这个问题：

content <- paste(lines[utf8::utf8_valid(lines)], collapse = "\n")
content %>% read_html() %>% html_nodes('#resultatListeAppellation .lien') %>% html_text()

这给出了预期的输出。

使用rvest进行webscraping时法国unicode的管理

1 个答案: