我正在尝试从此处提取指向.zip文件的链接:
使用R中的rvest软件包。这些表每月更新一次,所以我不想每月都将链接地址复制到我的R脚本中。
我尝试使用SelectorGadget
工具来识别CSS类,因为该类在该站点上似乎没有用。然后,我尝试从html脚本中手动复制xpath,如下所示:
page=read_html("https://www150.statcan.gc.ca/n1/tbl/csv/14100287-eng.zip")
dfile<-page %>% html_nodes(xpath='//*[@class="active active active active active active active active"]') %>% html_attr('href')
这可以在短时间内完美运行,但几天后它开始不返回任何内容(dfile为空)。我注意到该站点上的html脚本有所更改(只有两个活动而不是8个),所以我尝试相应地调整脚本,但是它没有用。