通读页面并收集网站元素

Question

我一直在尝试正确收集多个链接的内容。但是，我正在使用的标签（“ node-body”）不仅收集新闻内容，而且还收集每个链接的其他信息

("roba_pagina_top_seccion\",\"slot\":\"Roba Pagina Top Seccion\",\"adunit\":\"elespectador\\/noticias\",\"size\":\"320x250, 300x250\",\"block\":\"1\",\"settings\":{\"out_of_page\":0,\"slug\":\"\",\"short_tag\":0,\"adsense_ad_types\":\"\",\"adsense_channel_ids\":\"\",\"adsense_colors)

通读页面并收集网站元素

map_df(1100:1101, function(i) {

  pagina <- read_html(sprintf(url_espectador, i, '%s', '%s', '%s', '%s'))

  data.frame(link = paste0("https://www.elespectador.com", str_trim(html_attr(html_nodes(pagina, ".node-title a"), "href"))),
             title = html_text(html_nodes(pagina, ".node-title h3")),
             date = html_text(html_nodes(pagina, ".node-post-date")),
             stringsAsFactors=FALSE)
  }) -> links_espectador

＃获取每个链接的内容。这是我的问题

content_espectador = lapply(links_espectador[ , 1], function(x) {read_html(x) %>% html_nodes(".node-body") %>% html_text %>% as.character})

我只想收集新闻报道而没有任何其他数据。

如何识别正确的标签或使用实际的标签，但让其余无用的信息感到高兴呢？

谢谢！

查找正确的标签以刮除多个链接的内容时出现问题

通读页面并收集网站元素

0 个答案: