Question

我是初学者，我想从页面中删除所有带有所选关键字的文章。我只能抓取单个页面上显示的文章标题，文章描述的一部分及其链接。我不仅想要搜索搜索结果，还要搜索每个显示链接的内容。

网站：http://search.time.com/?site=time&q=bitcoin

require(rvest)
url<- "http://search.time.com/?site=time&q=bitcoin"
webpage <- read_html(url)

title_data_html <- html_nodes(webpage,'.content-title a')

title_data <- html_text(title_data_html)

description_data_html <- html_nodes(webpage,'.content-snippet')
description_data <- html_text(description_data_html)

links = html_attr(title_data_html, name = "href")

Answer 1

您所使用的功能是来自follow_link()包的rvest。这是关于这个主题的另一篇SO帖子：

Scraping linked HTML webpages by looping the rvest::follow_link() function

使用R进行网页抓取，点击链接

1 个答案: