Question

我正在尝试从此处提取指向.zip文件的链接：

https://www150.statcan.gc.ca/n1/tbl/csv/14100287-eng.zip

使用R中的rvest软件包。这些表每月更新一次，所以我不想每月都将链接地址复制到我的R脚本中。

我尝试使用SelectorGadget工具来识别CSS类，因为该类在该站点上似乎没有用。然后，我尝试从html脚本中手动复制xpath，如下所示：

page=read_html("https://www150.statcan.gc.ca/n1/tbl/csv/14100287-eng.zip")

dfile<-page %>% html_nodes(xpath='//*[@class="active active active active active active active active"]') %>% html_attr('href')

这可以在短时间内完美运行，但几天后它开始不返回任何内容（dfile为空）。我注意到该站点上的html脚本有所更改（只有两个活动而不是8个），所以我尝试相应地调整脚本，但是它没有用。

如何使用rvest在R中提取下载链接

0 个答案: