我有一个脚本,可以定期(每周一次)检查某些网站以进行抓取。该网站每周更新一次(或每两周更新一次)。到目前为止,检索正确的信息没有问题。
今天,由于某些未知原因,我从read_html
那里得到了错误的信息
library(rvest)
urlATP <- "http://www.tennisleader.fr/classement/1"
checkDate <- as.Date(gsub("Au ", "",
html_text(html_nodes(read_html(urlATP), ".date-atp"))),
format = "%d/%m/%Y")
print(checkDate)
哪个返回此
[1] "2018-07-02"
但是,当我进入网站时,日期是不同的。
<p class="date-atp">Au 16/07/2018</p>
什么可以解释这种不匹配,更重要的是我如何摆脱它?
其他信息: