使用RVest在R中进行Web抓取-下载xls

时间:2019-04-20 23:37:40

标签: r web-scraping

我正试图从该网站here收集数据,但是我的经验以及我在其他页面和帖子中所读到的内容还不够。

除了选项“ xls”外,我正在尝试使用R选择“下载”选项,并且有时会在通知的链接中采用“ ddmmyyyy”格式。

我最初尝试使用软件包RSelenium,但绝对不能运行,并显示错误消息

Error in wdman :: selenium (port = port, verbose = verbose, version = version,: Selenium server signals port = 4444 is already in use.

因此,在互联网上搜索后,我发现了rvest软件包,其中包含使用提示here

例如,我尝试通过HTML查找所需的选项

<b> Download </ b>
<input type = "radio" value = "2" onclick = "Show allOptions (2)" name = "select

<b> XLS </ b>
<input type = "radio" value = "xls" name = "output" checked = "">

我从这里开始


URL <-'http: //www.anbima.com.br/en/informar/consulta-ihfa.htm'

html <- read_html (URL)

html1 <- html%>%

   html_nodes ("div")%>%

   head ()

但是,即使打开“标签”,我也找不到所需的选项。

是否有一种简便的方法来识别我想要的选项,以便我可以访问该页面的XLS?

0 个答案:

没有答案