我构建了一些代码来从摔跤数据网站中抓取数据。自从我构建并运行代码到今天开始运行已经过去了2 1/2个月,我遇到了错误。为了清楚起见,我正在简化代码。例如,当我运行
awa_history <- "https://www.cagematch.net/?id=5&nr=54"
awa_history_2 <- read_html(awa_history)
我明白了
Error in open.connection(x, "rb") :
Error while processing content unencoding: incorrect data check
几个月前从事此项目之前,我从未遇到过此错误。我在其他网站上尝试过read_html,但没有遇到这个问题。我已经确认该网站尚未从html进行过全面检查。我已经从工作VPN中注销,问题仍然存在。
有人知道吗: A)此问题是否是本网站特有的? B)是否有什么办法可以解决这个问题?
感谢您的帮助或想法。
答案 0 :(得分:3)
否,如果您将网址包装在url
中,则网站似乎会返回响应:
read_html("https://www.cagematch.net/?id=5&nr=54")
#> Error in open.connection(x, "rb") :
#> Error while processing content unencoding: incorrect data check
read_html(url("https://www.cagematch.net/?id=5&nr=54"))
#> {html_document}
#> <html xmlns="http://www.w3.org/1999/xhtml">
#> [1] <head>\n<link href="/2k16/css/2k16.css?20200618" rel="stylesheet" type="text/css"> ...
#> [2] <body class="TemplateBody">\r\n <div class="LayoutUserAccount LayoutWidth"> ...