使用rvest进行网络报废 - 在图标中嵌入链接并从链接下载文件

时间:2018-05-08 12:12:46

标签: html r web-scraping rvest

我在R工作,并在从网页抓取数据时遇到以下任务:网页上有一个图标,如果点击它就打开一个pdf文档。我想:

  • 识别图标中嵌入的链接
  • 下载pdf文档。

因为我需要为>执行该任务100例,我想自动化这两个步骤。

现在,我已经确定了一个公式,可以帮助我在识别出链接后下载pdf文件

download.file('https://primalbase.com/assets/PrimalbaseWP.pdf', destfile = "Whitepaper_primalbase")

然而,我无法让第一部分工作,这告诉r跳转到原始页面的链接(https://icowatchlist.com/ico/primalbase)。我曾尝试使用Selector小工具来识别目标代码,然后应用follow_link公式,但R将其读取为图标而不是链接:

follow_link('.btnGrey')

这是我正在使用的示例网址:

URL_comp <- 'https://icowatchlist.com/ico/primalbase'
page_comp <- read_html(URL_comp)

有人可以帮我找出解决这个问题的方法吗?

非常感谢提前!

0 个答案:

没有答案