我无法抓取新闻网站的网址

时间:2019-07-24 17:00:01

标签: r web-scraping rvest

我尝试使用Rvest收集网站的URl,但是似乎我正在使用的节点/标签(“ node-title”)不包含每个链接的“ href”。但是,如果我使用相同的节点/标签来收集主页中的URL(我试图抓取搜索部分),则它确实起作用。

#Getting the dynamic URL using %d

url_espectador <- 'https://www.elespectador.com/search/proceso paz farc?page=%d'

#The original website is https://www.elespectador.com/search/proceso%20de%20paz?page=1

#Reading through the pages and collecting website elements
map_df(1:10, function(i) {
  pagina <- read_html(sprintf(url_espectador, i, '%s', '%s', '%s', '%s'))

  data.frame(link = str_trim(html_attr(html_nodes(pagina, ".node-title"), "href")),
                      stringsAsFactors=FALSE)
  }) -> titulos_espectador

我得到的是每个字符串不适用。有人可以帮忙吗?谢谢!

0 个答案:

没有答案