使用R进行网页抓取,点击链接

时间:2018-02-22 00:55:45

标签: r web-scraping rvest

我是初学者,我想从页面中删除所有带有所选关键字的文章。我只能抓取单个页面上显示的文章标题,文章描述的一部分及其链接。我不仅想要搜索搜索结果,还要搜索每个显示链接的内容。

网站:http://search.time.com/?site=time&q=bitcoin

require(rvest)
url<- "http://search.time.com/?site=time&q=bitcoin"
webpage <- read_html(url)

title_data_html <- html_nodes(webpage,'.content-title a')

title_data <- html_text(title_data_html)

description_data_html <- html_nodes(webpage,'.content-snippet')
description_data <- html_text(description_data_html)

links = html_attr(title_data_html, name = "href")

1 个答案:

答案 0 :(得分:0)

您所使用的功能是来自follow_link()包的rvest。这是关于这个主题的另一篇SO帖子:

Scraping linked HTML webpages by looping the rvest::follow_link() function