我是初学者,我想从页面中删除所有带有所选关键字的文章。我只能抓取单个页面上显示的文章标题,文章描述的一部分及其链接。我不仅想要搜索搜索结果,还要搜索每个显示链接的内容。
网站:http://search.time.com/?site=time&q=bitcoin
require(rvest)
url<- "http://search.time.com/?site=time&q=bitcoin"
webpage <- read_html(url)
title_data_html <- html_nodes(webpage,'.content-title a')
title_data <- html_text(title_data_html)
description_data_html <- html_nodes(webpage,'.content-snippet')
description_data <- html_text(description_data_html)
links = html_attr(title_data_html, name = "href")
答案 0 :(得分:0)
您所使用的功能是来自follow_link()
包的rvest
。这是关于这个主题的另一篇SO帖子:
Scraping linked HTML webpages by looping the rvest::follow_link() function