getURL对于一个链接不起作用(并且以前有效)

时间:2018-08-25 10:12:03

标签: html r rvest geturl

我使用getURLhtmlTreeParse通过以下代码进行网络抓取:

library(XML)
library(rvest)
library(httr)
library(RCurl)
url="https://www.restaurants.mcdonalds.fr/"

page = htmlTreeParse(getURL(url),useInternal = TRUE,encoding="utf8")
locs = unlist(xpathApply(page, '//div[@class="department-part"]/ul/li/a', 
   xmlGetAttr,"href"))

但是,由于某些原因,此代码不再起作用。在getURL(url)中,似乎可以获取整个源代码。

url="https://www.restaurants.mcdonalds.fr/"
read_html(url) %>%
html_nodes(xpath='//div[@class="department-part"]/ul/li/a') %>%
  html_text()

我也尝试了rvest,看来read_html也不起作用。而我可以查看源代码,例如Chrome。

我还测试了另一个链接。

url="https://restaurant.hippopotamus.fr/"
read_html(url) # works
getURL(url) # doesn't work and it did work before

我如何尝试找到解决方案?

0 个答案:

没有答案