在R中抓取网站时编码问题

时间:2015-10-08 10:17:32

标签: html r utf-8 web-scraping rvest

我正在使用rvest包从法语网站中提取重音信息。

我在read_hmtl()函数中尝试了不同的编码方法,latin1,latin8,utf-8但都失败了。

在代码源页面上:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

这是我的代码:

dnc_avis <- read_html(url, encoding =  "utf8")
df <- data.frame(dnc_avis %>% html_nodes("div .contenant_recherche h3") %>% html_text(trim=TRUE))
df[1,]
它给了我: MonsieurRené(对于MonséurRené)。

也尝试过:

dnc_avis <- read_html(iconv(url, to = "UTF-8"), encoding =  "utf8")

但输出相同。

如何获得正确的编码?

非常感谢。

0 个答案:

没有答案