这是rvest错误,是由于我要从中抓取的网站引起的吗?

时间:2020-06-30 20:10:09

标签: r rvest

我构建了一些代码来从摔跤数据网站中抓取数据。自从我构建并运行代码到今天开始运行已经过去了2 1/2个月,我遇到了错误。为了清楚起见,我正在简化代码。例如,当我运行

awa_history <- "https://www.cagematch.net/?id=5&nr=54"
awa_history_2 <- read_html(awa_history)

我明白了

Error in open.connection(x, "rb") : 
  Error while processing content unencoding: incorrect data check

几个月前从事此项目之前,我从未遇到过此错误。我在其他网站上尝试过read_html,但没有遇到这个问题。我已经确认该网站尚未从html进行过全面检查。我已经从工作VPN中注销,问题仍然存在。

有人知道吗: A)此问题是否是本网站特有的? B)是否有什么办法可以解决这个问题?

感谢您的帮助或想法。

1 个答案:

答案 0 :(得分:3)

否,如果您将网址包装在url中,则网站似乎会返回响应:

read_html("https://www.cagematch.net/?id=5&nr=54")
#> Error in open.connection(x, "rb") : 
#>   Error while processing content unencoding: incorrect data check

read_html(url("https://www.cagematch.net/?id=5&nr=54"))
#> {html_document}
#> <html xmlns="http://www.w3.org/1999/xhtml">
#> [1] <head>\n<link href="/2k16/css/2k16.css?20200618" rel="stylesheet" type="text/css"> ...
#> [2] <body class="TemplateBody">\r\n        <div class="LayoutUserAccount LayoutWidth"> ...