查找正确的标签以刮除多个链接的内容时出现问题

时间:2019-07-25 11:19:22

标签: r web-scraping rvest

我一直在尝试正确收集多个链接的内容。但是,我正在使用的标签(“ node-body”)不仅收集新闻内容,而且还收集每个链接的其他信息

("roba_pagina_top_seccion\",\"slot\":\"Roba Pagina Top Seccion\",\"adunit\":\"elespectador\\/noticias\",\"size\":\"320x250, 300x250\",\"block\":\"1\",\"settings\":{\"out_of_page\":0,\"slug\":\"\",\"short_tag\":0,\"adsense_ad_types\":\"\",\"adsense_channel_ids\":\"\",\"adsense_colors)

通读页面并收集网站元素

map_df(1100:1101, function(i) {

  pagina <- read_html(sprintf(url_espectador, i, '%s', '%s', '%s', '%s'))

  data.frame(link = paste0("https://www.elespectador.com", str_trim(html_attr(html_nodes(pagina, ".node-title a"), "href"))),
             title = html_text(html_nodes(pagina, ".node-title h3")),
             date = html_text(html_nodes(pagina, ".node-post-date")),
             stringsAsFactors=FALSE)
  }) -> links_espectador

#获取每个链接的内容。这是我的问题

content_espectador = lapply(links_espectador[ , 1], function(x) {read_html(x) %>% html_nodes(".node-body") %>% html_text %>% as.character})

我只想收集新闻报道而没有任何其他数据。

如何识别正确的标签或使用实际的标签,但让其余无用的信息感到高兴呢?

谢谢!

0 个答案:

没有答案